Modèle de résumé vidéo basé sur la modélisation temporelle multi-échelle et la fusion dynamique des caractéristiques spatiales

LI Zehui ,  

ZHANG Lin ,  

SHAN Xianying ,  

SHEN Ganjie ,  

摘要

Pour répondre au problème de la modélisation temporelle multi-échelle et de la modélisation locale des caractéristiques insuffisantes dans la tâche de résumé vidéo, cet article propose un modèle de résumé vidéo combinant un décalage temporel multi-échelle et un mécanisme d'attention locale déformable. Tout d'abord, un module de décalage temporel bidirectionnel multi-échelle adaptatif (MAB-TSM) a été conçu, qui réalise une modélisation adaptative des dépendances temporelles à court et long terme de la vidéo via la prédiction dynamique des pas de déplacement apprentissables et des convolutions dilatées multi-échelles; ensuite, un module d'attention locale déformable (DALAM) a été conçu, combinant une stratégie dynamique de segmentation vidéo et un mécanisme d'ajustement adaptatif des positions d'échantillonnage, renforçant la capacité d'expression détaillée des caractéristiques des zones clés locales tout en réduisant la complexité de calcul; de plus, un réseau BiFPN amélioré de fusion multi-échelle a introduit un module d'attention renforcée entre échelles, améliorant l'expressivité complémentaire des caractéristiques multi-échelles. Le modèle proposé a été expérimenté plusieurs fois sur les ensembles de données SumMe et TVSum, obtenant des scores F1 de 56,8 % et 62,6 % respectivement en mode standard, surpassant les méthodes existantes, avec des coefficients de corrélation des rangs de Kendall et Spearman atteignant respectivement 0,153 et 0,200, témoignant d'une bonne cohérence. Les résultats expérimentaux démontrent la précision et l'efficacité du modèle dans la tâche de résumé vidéo.

关键词

Résumé vidéo;Modélisation temporelle multi-échelle;Module de décalage temporel;Attention déformable;Mécanisme d'attention locale

阅读全文