للتصدي لمشكلة تراجع أداء التتبع في تتبع الهدف الواحد بسبب تغطية الهدف وتداخل الأجسام المتشابهة، تقدم هذه الورقة خوارزمية تتبع هدف قائمة على Transformer ومسار التتبع. تستخدم الخوارزمية Vision Transformer (ViT) كشبكة رئيسية، وللتخفيف من حساسية Transformer للمعلومات الخلفية أثناء استخراج الميزات، تم إدخال طبقة تركيز لتعديل توزيع الانتباه، مما يعزز وزن منطقة الهدف ويكبت الضوضاء الخلفية؛ كما تم تصميم وحدة انتباه مختلطة لفصل الميزات بين القالب ومنطقة البحث، حيث تستخدم منطقة القالب آلية الانتباه الذاتي لتعزيز ميزات الهدف، بينما تدمج منطقة البحث معلومات السياق العامة من خلال الانتباه المتبادل. بالإضافة إلى ذلك، تُدرج الخوارزمية معالجة لاحقة تعتمد على مسار التتبع، حيث يتم بناء تسلسل نتائج التتبع التاريخية إلى مسار هدف، ويتم تقييم موثوقية إطار الحدود المتوقع باستخدام فلتر كالمان. إذا كانت الموثوقية أعلى من العتبة المحددة، يتم إخراج الإطار المتوقع مباشرة؛ وإلا، يتم التتبع العكسي للإطار المتوقع وإطارات المرشحين، لتوليد مسارات متعددة وحساب مدى تطابقها مع مسار الهدف، ويتم اختيار إطار الحدود الأمثل لتحسين نتائج التتبع. في مرحلة التدريب، يُستخدم دالة فقدان EIoU في الانحدار لإطار الحدود، لتعزيز دقة التحديد. تظهر النتائج التجريبية أن الخوارزمية المقترحة تحقق معدل تداخل متوسط (AO) بنسبة 74.6% على مجموعة بيانات GOT-10K، ودقة (P) بنسبة 91.4% على مجموعة بيانات UAV123، كما تُظهر أداء تتبع ممتازاً على مجموعات بيانات LaSOT وTrackingNet وOTB100. تبرهن النتائج المرئية على قدرة الخوارزمية على الحفاظ على تتبع مستقر ودقيق في مشاهد معقدة مثل التغطية وتداخل الأجسام المتشابهة.
关键词
تتبع الهدف;آلية الانتباه;مسار التتبع;تغطية الهدف;تداخل الأجسام المتشابهة