Para abordar el problema de la insuficiente modelización temporal a múltiples escalas y modelización local de características en la tarea de resumen de video, este artículo propone un modelo de resumen de video que combina desplazamiento temporal multi-escala y un mecanismo de atención local deformable. Primero, se diseñó un módulo de desplazamiento temporal bidireccional adaptativo de múltiples escalas (MAB-TSM), que mediante la predicción de pasos de desplazamiento dinámicos aprendibles y convoluciones dilatadas multi-escala, logra una modelización adaptativa de las dependencias temporales a corto y largo plazo del video; en segundo lugar, se diseñó un módulo de atención local deformable (DALAM), que combina una estrategia dinámica de segmentación de video y un mecanismo adaptativo de ajuste de posiciones de muestreo, mejorando la capacidad de expresión detallada de regiones clave locales mientras reduce la complejidad computacional; además, se mejoró la red BiFPN de fusión entre escalas introduciendo un módulo de atención entre escalas para potenciar la expresión complementaria de características multi-escala. El modelo propuesto fue probado múltiples veces en los conjuntos de datos SumMe y TVSum, alcanzando puntuaciones F1 del 56,8 % y 62,6 % en modo estándar, superando métodos existentes, y coeficientes de correlación de rango de Kendall y Spearman de 0,153 y 0,200 respectivamente, mostrando una buena coherencia. Los resultados experimentales demuestran la precisión y eficacia del modelo en la tarea de resumen de video.
关键词
resumen de video;modelización temporal multi-escala;módulo de desplazamiento temporal;atención deformable;mecanismo de atención local