Debido a los problemas en los métodos actuales de superresolución de video, como la imprecisa alineación entre cuadros en escenas con movimientos complejos, el uso insuficiente de la información temporal y la alta complejidad computacional de los mecanismos de atención tradicionales, este artículo propone una red de superresolución de video que integra atención cruzada guiada por flujo óptico (OFCA-Transformer). En primer lugar, se diseñó un módulo ligero de estimación de flujo óptico de múltiples escalas para generar información de movimiento de múltiples granularidades; en segundo lugar, se introduce de manera innovadora un mecanismo de atención cruzada guiado por flujo óptico, creando una ventana de atención local centrada en la posición predicha por el flujo óptico, logrando una fusión profunda de los prioris geométricos explícitos y la percepción implícita del contenido, mejorando la precisión del alineamiento mientras reduce significativamente la complejidad computacional; finalmente, se construye un módulo de agregación de características en capas para lograr una fusión más efectiva de características espacio-temporales dentro de la arquitectura Transformer. Con factores de ampliación de ×2, ×3 y ×4, el método propuesto se compara con otros en 3 conjuntos de datos públicos. Los resultados muestran que OFCA-Transformer tiene un PSNR solo 0.16 dB inferior a otros métodos avanzados, mientras que la cantidad de parámetros del modelo se reduce en un 82.8%, mejorando efectivamente la eficiencia computacional. Además, el método propuesto muestra una recuperación de detalles más precisa y una mejor consistencia temporal en escenas de movimiento complejo, logrando objetivamente buenos indicadores cuantitativos en todos los factores de ampliación.
关键词
Superresolución de video;Transformer;Estimación de flujo óptico;Atención cruzada;Alineación de movimiento