Для решения проблемы недостаточного многомасштабного временного моделирования и локального моделирования признаков в задаче видеоаннотации в статье предложена модель видеоаннотации, сочетающая многомасштабное временное смещение и деформируемый локальный механизм внимания. Во-первых, разработан многомасштабный адаптивный двунаправленный модуль временного смещения (MAB-TSM), который посредством обучаемого динамического шага смещения и многомасштабной дилатированной свёртки обеспечивает адаптивное моделирование краткосрочных и долгосрочных временных зависимостей видео; во-вторых, разработан деформируемый локальный модуль внимания (DALAM), сочетающий динамическую стратегию сегментации видео и механизм адаптивной корректировки позиций выборки, что снижает вычислительную сложность и усиливает детальное представление ключевых локальных областей; кроме того, улучшена сеть BiFPN для кроссмасштабного объединения с введением модуля усиления внимания, повышающего взаимодополняемое представление многоуровневых признаков. Предложенная модель была многократно протестирована на наборах данных SumMe и TVSum, модель достигла F1-оценок 56.8% и 62.6% в нормативном режиме, превосходя существующие методы, а коэффициенты ранговой корреляции Кендалла и Спирмена составили 0.153 и 0.200 соответственно, демонстрируя хорошую согласованность. Результаты экспериментов подтверждают точность и эффективность модели в задаче видеоаннотации.
关键词
видеоаннотация;многомасштабное временное моделирование;модуль временного смещения;деформируемое внимание;локальный механизм внимания