نظرًا للمشكلات الموجودة في طرق التحليل الفائقة الفيديو الحالية مثل عدم دقة محاذاة الإطارات في مشاهد الحركة المعقدة، والاستخدام غير الكافي للمعلومات الزمنية، وتعقيد حساب آليات الانتباه التقليدية، تقترح هذه الورقة شبكة فيديو لتحليل الفائقة تدمج الانتباه المتقاطع الموجه بتدفق الضوء (OFCA-Transformer). أولاً، تم تصميم وحدة تقدير تدفق ضوئي متعددة المقاييس خفيفة الوزن لتوليد معلومات حركة متعددة الدرجات؛ ثانيًا، تم إدخال آلية انتباه متقاطع موجهة بتدفق الضوء بشكل مبتكر، حيث يتم إنشاء نافذة انتباه محلية حول موقع التنبؤ بتدفق الضوء لتحقيق دمج عميق بين الأولويات الهندسية الصريحة والإدراك الضمني للمحتوى، مما يحسن دقة المحاذاة ويقلل بشكل كبير من تعقيد الحساب؛ وأخيرًا، تم إنشاء وحدة تجميع ميزات طبقية لتحقيق دمج أكثر فعالية للميزات الزمكانية داخل هيكل Transformer. عند عوامل التكبير ×2 و×3 و×4، تم مقارنة طريقة البحث هذه مع طرق أخرى على 3 مجموعات بيانات عامة. وأظهرت النتائج أن OFCA-Transformer تتفوق بفارق 0.16 ديسيبل فقط في PSNR مقارنة بالطرق المتقدمة الأخرى، مع خفض معلمات النموذج بنسبة 82.8%، مما حسّن الكفاءة الحسابية بشكل فعال. بالإضافة إلى ذلك، أظهرت طريقة البحث هذه تعافي تفاصيل أدق واتساق زمني أفضل في مشاهد الحركة المعقدة، مما حقق مؤشرات كمية جيدة في جميع عوامل التكبير المعنية.
关键词
تحليل الفيديو الفائق;Transformer;تقدير تدفق الضوء;الانتباه المتقاطع;محاذاة الحركة