Для решения проблемы недостаточного многомасштабного временного моделирования и локального моделирования признаков в задаче видеорезюме в статье предложена модель видеорезюме, сочетающая многомасштабное временное смещение и деформируемый механизм локального внимания. Во-первых, разработан модуль многомасштабного адаптивного двунаправленного временного смещения (MAB-TSM), который посредством прогнозирования динамического смещения с возможностью обучения и многомасштабной расширенной свертки обеспечивает адаптивное моделирование как долгосрочной, так и краткосрочной временной зависимости видео; во-вторых, разработан модуль деформируемого локального внимания (DALAM), который сочетает динамическую стратегию сегментации видео и механизм адаптивной корректировки позиций выборки, снижая вычислительную сложность и усиливая точное выражение признаков локальных ключевых областей; кроме того, усовершенствована сеть BiFPN для многомасштабного слияния с добавлением модуля усиления внимания между масштабами, повышающего взаимодополняющее выражение признаков разных масштабов. Предложенная модель была многократно протестирована на наборах данных SumMe и TVSum, достигнув F1-оценок 56.8% и 62.6% в стандартизированном режиме, что превосходит существующие методы, а коэффициенты ранговой корреляции Кендалла и Спирмена составили 0.153 и 0.200 соответственно, что демонстрирует хорошее согласование. Экспериментальные результаты подтверждают точность и эффективность модели в задаче видеорезюме.
关键词
Видеорезюме;Многомасштабное временное моделирование;Модуль временного смещения;Деформируемое внимание;Механизм локального внимания