نموذج تلخيص الفيديو القائم على النمذجة الزمنية متعددة المقاييس ودمج الميزات المكانية الديناميكية

LI Zehui; ZHANG Lin; SHAN Xianying; SHEN Ganjie

doi:10.37188/CJLCD.2025-0189

نموذج تلخيص الفيديو القائم على النمذجة الزمنية متعددة المقاييس ودمج الميزات المكانية الديناميكية

DOI：10.37188/CJLCD.2025-0189

摘要

لمشكلة النمذجة الزمنية متعددة المقاييس والنمذجة المحلية غير الكافية في مهام تلخيص الفيديو، يقترح هذا البحث نموذج تلخيص فيديو يجمع بين الإزاحة الزمنية متعددة المقاييس وآلية الانتباه الموضعية القابلة للتشكّل. أولاً، تم تصميم وحدة إزاحة زمنية ثنائية الاتجاه ذاتية التكيف متعددة المقاييس (MAB-TSM)، والتي من خلال خطوات إزاحة ديناميكية يمكن تعلمها وعمليات الالتفاف المتسعة متعددة المقاييس، تحقق نمذجة تعتمد ذاتياً على التتابع الزمني قصير وطويل الأمد للفيديو؛ ثانياً، تم تصميم وحدة الانتباه الموضعية القابلة للتشكّل (DALAM)، التي تجمع بين استراتيجية تقسيم الفيديو الديناميكية وآلية تعديل موقع العينة التكيفية، مما يعزز قدرة التعبير التفصيلي للميزات المفصلية المحلية مع تقليل تعقيد الحساب؛ بالإضافة إلى ذلك، تم تحسين شبكة BiFPN للدمج عبر المقاييس بإدخال وحدة تعزيز الانتباه عبر المقاييس على أساس BiFPN، مما يعزز التعبير التكميلي للميزات متعددة المقاييس. أجريت التجارب على مجموعات بيانات SumMe وTVSum، حيث حقق النموذج درجة F1 بنسبة 56.8% و62.6% على التوالي في الوضع القياسي، متفوقاً على الطرق الحالية، وبلغت معاملات الترتيب Kendall وSpearman 0.153 و0.200 على التوالي، مما يعكس تناسقاً جيداً. تعكس النتائج التجريبية دقة وفاعلية النموذج في مهام تلخيص الفيديو.

关键词

تلخيص الفيديو;النمذجة الزمنية متعددة المقاييس;وحدة الإزاحة الزمنية;الانتباه القابل للتشكّل;آلية الانتباه الموضعية

阅读全文

نموذج تلخيص الفيديو القائم على النمذجة الزمنية متعددة المقاييس ودمج الميزات المكانية الديناميكية

LI Zehui ,

ZHANG Lin ,

SHAN Xianying ,

SHEN Ganjie ,

DOI：10.37188/CJLCD.2025-0189

摘要

关键词