Modèle de résumé vidéo basé sur la modélisation temporelle multi-échelles et la fusion dynamique des caractéristiques spatiales

LI Zehui ,  

ZHANG Lin ,  

SHAN Xianying ,  

SHEN Ganjie ,  

摘要

Pour résoudre le problème du manque de modélisation temporelle multi-échelles et de modélisation des caractéristiques locales dans la tâche de résumé vidéo, cet article propose un modèle de résumé vidéo combinant décalage temporel multi-échelles et mécanisme d'attention locale déformable. Premièrement, un module de décalage temporel bidirectionnel adaptatif multi-échelles (MAB-TSM) est conçu, réalisant une modélisation adaptative des dépendances temporelles à court et long terme grâce à une prédiction de pas de déplacement dynamique et à une convolution dilatée multi-échelles ; deuxièmement, un module d'attention locale déformable (DALAM) est conçu, combinant une stratégie dynamique de segmentation vidéo et un mécanisme d'ajustement adaptatif des positions d'échantillonnage, renforçant la capacité d'expression détaillée des régions clés locales tout en réduisant la complexité du calcul ; de plus, le réseau BiFPN de fusion multi-échelles est amélioré en introduisant un module d'amélioration de l'attention inter-échelles, augmentant la complémentarité des caractéristiques multi-échelles. Le modèle proposé a été testé plusieurs fois sur les ensembles de données SumMe et TVSum, avec un score F1 en mode normalisé atteignant respectivement 56,8 % et 62,6 %, surpassant les méthodes existantes, et des coefficients de corrélation de rang Kendall et Spearman atteignant 0,153 et 0,200, montrant une bonne cohérence. Les résultats expérimentaux démontrent la précision et l'efficacité de ce modèle pour la tâche de résumé vidéo.

关键词

résumé vidéo;modélisation temporelle multi-échelles;module de décalage temporel;attention déformable;mécanisme d'attention locale

阅读全文