خوارزمية تتبع الهدف القائمة على Transformer ومسار التتبع

WANG Xin ,  

CHEN Zhiwang ,  

WEI Yanqiao ,  

SUN Yixuan ,  

PENG Yong ,  

摘要

لمعالجة مشكلة تدهور أداء التتبع في التتبع أحادي الهدف الناتجة عن انسداد الهدف وتداخل الأجسام المتشابهة، تقترح هذه الورقة خوارزمية تتبع هدف تعتمد على Transformer ومسار التتبع. تستخدم الخوارزمية Vision Transformer (ViT) كشبكة رئيسية، ولتخفيف حساسية Transformer للمعلومات الخلفية أثناء استخراج الميزات، تم إدخال طبقة تركيز لضبط توزيع الانتباه، مما يعزز وزن منطقة الهدف ويكبِّح ضوضاء الخلفية؛ في الوقت نفسه، تم تصميم وحدة انتباه هجينة لفصل ميزات القالب ومنطقة البحث، حيث تستخدم منطقة القالب آلية الانتباه الذاتي لتعزيز ميزات الهدف، فيما تدمج منطقة البحث معلومات السياق العالمية من خلال الانتباه المتبادل. بالإضافة إلى ذلك، تقدم الخوارزمية معالجاً خلفياً قائمًا على مسار التتبع، يبني تسلسل نتائج التتبع التاريخية إلى مسار الهدف ويستخدم فلتر كالمان لتقييم موثوقية المربع المحيط المُتوقع. إذا كانت الموثوقية أعلى من العتبة المحددة، يتم إخراج المربع المتنبأ به مباشرة؛ وإلا يتم إجراء تتبع عكسي لمربعات التنبؤ والمرشحين، مما يولد عدة مسارات ويحسب تطابقها مع مسار الهدف، ويتم اختيار المربع الأمثل لتحسين نتائج التتبع. تستخدم مرحلة التدريب دالة خسارة EIoU لانحدار المربع المحيط لتحسين دقة التحديد بشكل أكبر. أظهرت النتائج التجريبية أن الخوارزمية المقترحة تحقق متوسط التداخل (AO) بنسبة 74.6% على مجموعة بيانات GOT-10K، ودقة بنسبة 91.4% على مجموعة UAV123، كما أظهرت أداء تتبع ممتازًا على مجموعات بيانات LaSOT وTrackingNet وOTB100. تثبت النتائج المرئية أن الخوارزمية تحافظ على أداء تتبع مستقر ودقيق حتى في المشاهد المعقدة التي تشمل الانسدادات وتداخل الأجسام المتشابهة.

关键词

تتبع الهدف;آلية الانتباه;مسار التتبع;انسداد الهدف;تداخل الأجسام المتشابهة

阅读全文