Angesichts der Herausforderungen bestehender Video-Superauflösungsverfahren bei komplexen Bewegungsszenarien, wie ungenaue Zwischenbildausrichtung, unzureichende Nutzung zeitlicher Informationen und hohe Rechenkomplexität traditioneller Aufmerksamkeitsmechanismen, schlägt dieser Artikel ein Video-Superauflösungsnetzwerk vor, das eine optische Fluss-geführte Kreuzaufmerksamkeitsmechanismus (OFCA-Transformer) integriert. Zunächst wird ein leichtgewichtiger, mehrskaliger optischer Flussschätzungsmodul entwickelt, der mehrgranulare Bewegungsinformationen erzeugt; zweitens wird innovativ ein optischer Fluss-geführter Kreuzaufmerksamkeitsmechanismus eingeführt, der um die durch den optischen Fluss prognostizierte Position ein lokales Aufmerksamkeitsfenster erstellt und eine tiefe Verschmelzung expliziter geometrischer Prioren und impliziter Inhaltswahrnehmung ermöglicht, wodurch die Ausrichtungsgenauigkeit verbessert und die Rechenkomplexität deutlich reduziert wird; schließlich wird ein geschichtetes Merkmalsaggregationsmodul aufgebaut, das eine effektivere räumlich-zeitliche Merkmalsfusion innerhalb der Transformer-Architektur realisiert. Bei Vergrößerungsfaktoren ×2, ×3 und ×4 wird die vorgeschlagene Methode mit anderen Methoden auf 3 öffentlichen Datensätzen verglichen. Die Ergebnisse zeigen, dass OFCA-Transformer im PSNR-Wert nur 0,16 dB hinter anderen fortschrittlichen Methoden liegt, während die Modellparameter um 82,8 % reduziert wurden, was die Recheneffizienz effektiv verbessert. Darüber hinaus zeigt die vorgeschlagene Methode eine präzisere Detailwiederherstellung und bessere zeitliche Konsistenz in komplexen Bewegungsszenarien und erzielt objektiv gute quantitative Ergebnisse bei allen betrachteten Vergrößerungsfaktoren.