Reconstruction vidéo super-résolution légère basée sur OFCA-Transformer

REN Pengyang ,  

PANG Kai ,  

摘要

Face aux problèmes des méthodes actuelles de super-résolution vidéo, notamment l’alignement des images inter-frames inexact dans des scènes à mouvements complexes, l’exploitation insuffisante des informations temporelles, ainsi que la complexité élevée des mécanismes d’attention traditionnels, cet article propose un réseau de super-résolution vidéo fusionnant un attention croisée guidée par flux optique (OFCA-Transformer). Premièrement, un module de estimation de flux optique multi-échelle léger est conçu pour générer des informations de mouvement multi-granulaires ; deuxièmement, un mécanisme d’attention croisée guidé par flux optique est innovativement introduit, créant une fenêtre d’attention locale centrée sur la position prédite du flux optique, réalisant une fusion profonde entre les priori géométriques explicites et la perception implicite du contenu, améliorant la précision d’alignement tout en réduisant significativement la complexité de calcul ; enfin, un module d’agrégation hiérarchique des caractéristiques est construit pour une fusion plus efficace des caractéristiques spatiotemporelles dans l’architecture Transformer. Aux facteurs d’agrandissement ×2, ×3 et ×4, la méthode proposée est comparée à d’autres méthodes sur 3 bases de données publiques. Les résultats montrent que l’OFCA-Transformer atteint un PSNR à seulement 0,16 dB des autres méthodes avancées, avec une réduction de 82,8 % du nombre de paramètres du modèle, améliorant efficacement l’efficacité de calcul. De plus, la méthode proposée présente une récupération de détails plus précise et une meilleure cohérence temporelle dans les scènes à mouvements complexes, obtenant objectivement de bons résultats quantitatifs à tous les facteurs d’agrandissement.

关键词

Super-résolution vidéo;Transformer;Estimation de flux optique;Attention croisée;Alignement du mouvement

阅读全文