Modelo de resumen de video basado en modelado temporal multiescala y fusión dinámica de características espaciales

LI Zehui ,  

ZHANG Lin ,  

SHAN Xianying ,  

SHEN Ganjie ,  

摘要

Para abordar el problema de la insuficiente modelación temporal multiescala y la modelación local de características en la tarea de resumen de video, este artículo propone un modelo de resumen de video que combina desplazamiento temporal multiescala y un mecanismo de atención local deformable. Primero, se diseñó un módulo de desplazamiento temporal bidireccional adaptativo multiescala (MAB-TSM), que mediante la predicción dinámica de pasos de desplazamiento aprendibles y convoluciones dilatadas multiescala logra la modelación adaptativa de dependencias temporales a corto y largo plazo en videos; en segundo lugar, se diseñó un módulo de atención local deformable (DALAM), que combina una estrategia dinámica de segmentación de video y un mecanismo adaptativo de ajuste de posiciones de muestreo, reduciendo la complejidad computacional mientras mejora la capacidad de expresión detallada de características en regiones clave locales; además, se mejoró la red BiFPN para fusión multiescala, incorporando un módulo de atención reforzada entre escalas, mejorando la expresión complementaria de características multiescala. El modelo propuesto fue probado varias veces en los conjuntos de datos SumMe y TVSum, alcanzando puntuaciones F1 de 56.8% y 62.6% respectivamente en modo estándar, superando métodos existentes, y los coeficientes de correlación de rangos de Kendall y Spearman fueron 0.153 y 0.200, respectivamente, mostrando buena coherencia. Los resultados experimentales demuestran la precisión y efectividad del modelo en la tarea de resumen de video.

关键词

Resumen de video;Modelado temporal multiescala;Módulo de desplazamiento temporal;Atención deformable;Mecanismo de atención local

阅读全文