Modelo de resumen de video basado en modelización temporal multi-escala y fusión dinámica de características espaciales

LI Zehui; ZHANG Lin; SHAN Xianying; SHEN Ganjie

doi:10.37188/CJLCD.2025-0189

Modelo de resumen de video basado en modelización temporal multi-escala y fusión dinámica de características espaciales

DOI：10.37188/CJLCD.2025-0189

摘要

Para abordar el problema de la insuficiente modelización temporal a múltiples escalas y modelización local de características en la tarea de resumen de video, este artículo propone un modelo de resumen de video que combina desplazamiento temporal multi-escala y un mecanismo de atención local deformable. Primero, se diseñó un módulo de desplazamiento temporal bidireccional adaptativo de múltiples escalas (MAB-TSM), que mediante la predicción de pasos de desplazamiento dinámicos aprendibles y convoluciones dilatadas multi-escala, logra una modelización adaptativa de las dependencias temporales a corto y largo plazo del video; en segundo lugar, se diseñó un módulo de atención local deformable (DALAM), que combina una estrategia dinámica de segmentación de video y un mecanismo adaptativo de ajuste de posiciones de muestreo, mejorando la capacidad de expresión detallada de regiones clave locales mientras reduce la complejidad computacional; además, se mejoró la red BiFPN de fusión entre escalas introduciendo un módulo de atención entre escalas para potenciar la expresión complementaria de características multi-escala. El modelo propuesto fue probado múltiples veces en los conjuntos de datos SumMe y TVSum, alcanzando puntuaciones F1 del 56,8 % y 62,6 % en modo estándar, superando métodos existentes, y coeficientes de correlación de rango de Kendall y Spearman de 0,153 y 0,200 respectivamente, mostrando una buena coherencia. Los resultados experimentales demuestran la precisión y eficacia del modelo en la tarea de resumen de video.

关键词

resumen de video;modelización temporal multi-escala;módulo de desplazamiento temporal;atención deformable;mecanismo de atención local

阅读全文

Modelo de resumen de video basado en modelización temporal multi-escala y fusión dinámica de características espaciales

LI Zehui ,

ZHANG Lin ,

SHAN Xianying ,

SHEN Ganjie ,

DOI：10.37188/CJLCD.2025-0189

摘要

关键词