لمشكلة النمذجة الزمنية متعددة المقاييس والنمذجة المحلية غير الكافية في مهام تلخيص الفيديو، يقترح هذا البحث نموذج تلخيص فيديو يجمع بين الإزاحة الزمنية متعددة المقاييس وآلية الانتباه الموضعية القابلة للتشكّل. أولاً، تم تصميم وحدة إزاحة زمنية ثنائية الاتجاه ذاتية التكيف متعددة المقاييس (MAB-TSM)، والتي من خلال خطوات إزاحة ديناميكية يمكن تعلمها وعمليات الالتفاف المتسعة متعددة المقاييس، تحقق نمذجة تعتمد ذاتياً على التتابع الزمني قصير وطويل الأمد للفيديو؛ ثانياً، تم تصميم وحدة الانتباه الموضعية القابلة للتشكّل (DALAM)، التي تجمع بين استراتيجية تقسيم الفيديو الديناميكية وآلية تعديل موقع العينة التكيفية، مما يعزز قدرة التعبير التفصيلي للميزات المفصلية المحلية مع تقليل تعقيد الحساب؛ بالإضافة إلى ذلك، تم تحسين شبكة BiFPN للدمج عبر المقاييس بإدخال وحدة تعزيز الانتباه عبر المقاييس على أساس BiFPN، مما يعزز التعبير التكميلي للميزات متعددة المقاييس. أجريت التجارب على مجموعات بيانات SumMe وTVSum، حيث حقق النموذج درجة F1 بنسبة 56.8% و62.6% على التوالي في الوضع القياسي، متفوقاً على الطرق الحالية، وبلغت معاملات الترتيب Kendall وSpearman 0.153 و0.200 على التوالي، مما يعكس تناسقاً جيداً. تعكس النتائج التجريبية دقة وفاعلية النموذج في مهام تلخيص الفيديو.