نموذج ملخص فيديو بناءً على النمذجة الزمنية متعددة المقاييس ودمج الميزات الديناميكية للمساحة

LI Zehui ,  

ZHANG Lin ,  

SHAN Xianying ,  

SHEN Ganjie ,  

摘要

لمعالجة مشكلة عدم كفاية النمذجة الزمنية متعددة المقاييس والنمذجة المحلية للميزات في مهمة ملخص الفيديو، تقترح هذه الورقة نموذج ملخص فيديو يجمع بين إزاحة زمنية متعددة المقاييس وآلية انتباه محلية قابلة للتشكيل. أولاً، تم تصميم وحدة إزاحة زمنية ثنائية الاتجاه متعددة المقاييس قابلة للتكيف (MAB-TSM)، والتي تحقق نمذجة تكيفية للاعتماديات الزمنية قصيرة وطويلة الأمد للفيديو من خلال توقع خطوة إزاحة ديناميكية قابلة للتعلم واستخدام الالتفافات الموسعة متعددة المقاييس؛ ثانيًا، تم تصميم وحدة انتباه محلية قابلة للتشكيل (DALAM)، والتي تدمج استراتيجية تقسيم الفيديو الديناميكية وآلية تعديل مواقع العينة التكيفية، لتعزيز القدرة على التعبير الدقيق عن الميزات في المناطق المحلية الرئيسية مع تقليل التعقيد الحسابي؛ بالإضافة إلى ذلك، تم تحسين شبكة BiFPN للدمج بين المقاييس، حيث تم إدخال وحدة تعزيز الانتباه عبر المقاييس لتعزيز تعبير التكامل بين الميزات متعددة المقاييس على أساس BiFPN. تم إجراء العديد من التجارب على مجموعتي بيانات SumMe وTVSum، حيث وصل نموذجنا إلى درجات F1 بنسبة 56.8% و62.6% على التوالي في الوضع القياسي، متفوقًا على الطرق الحالية، كما حقق معاملات ارتباط رتبية كيندال وسبيرمان بنسبة 0.153 و0.200 على التوالي، مما يعكس اتساقًا جيدًا. تبرز النتائج التجريبية دقة وفعالية النموذج في مهمة ملخص الفيديو.

关键词

ملخص الفيديو;النمذجة الزمنية متعددة المقاييس;وحدة الإزاحة الزمنية;الانتباه القابل للتشكيل;آلية الانتباه المحلية

阅读全文