Zielverfolgungsalgorithmus basierend auf Transformer und Tracking-Trajektorie

WANG Xin ,  

CHEN Zhiwang ,  

WEI Yanqiao ,  

SUN Yixuan ,  

PENG Yong ,  

摘要

Um dem Problem der Leistungseinbußen beim Einziel-Tracking aufgrund von Zielverdeckung und Störungen durch ähnliche Objekte zu begegnen, wird in diesem Artikel ein zielbasiertes Tracking-Algorithmus auf Basis von Transformer und Tracking-Trajektorie vorgestellt. Der Algorithmus verwendet Vision Transformer (ViT) als Backbone-Netzwerk. Um die Sensitivität des Transformers gegenüber Hintergrundinformationen bei der Merkmalextraktion zu verringern, wird eine Fokusschicht eingeführt, die die Aufmerksamkeitsverteilung anpasst, das Gewicht des Zielbereichs verstärkt und Hintergrundrauschen unterdrückt; gleichzeitig wurde ein hybrides Aufmerksamkeitsmodul entworfen, das Merkmale von Template- und Suchbereich entkoppelt: Der Templatebereich nutzt Selbstaufmerksamkeit zur Verstärkung der Zielmerkmale, während der Suchbereich durch Kreuzaufmerksamkeit globale Kontextinformationen integriert. Darüber hinaus implementiert der Algorithmus einen Nachbearbeiter basierend auf der Tracking-Trajektorie, der die historische Tracking-Ergebnisfolge zu einer Zieltrajektorie aufbaut und die Zuverlässigkeit der prognostizierten Begrenzungsrahmen mittels Kalman-Filter bewertet. Überschreitet die Zuverlässigkeit einen definierten Schwellenwert, wird der Prognoserahmen direkt ausgegeben; andernfalls erfolgt ein Rückwärtstracking der Prognoserahmen und der Kandidatenrahmen zur Generierung mehrerer Trajektorien und zur Berechnung ihrer Übereinstimmung mit der Zieltrajektorie, wobei der beste Begrenzungsrahmen zur Optimierung des Tracking-Ergebnisses ausgewählt wird. In der Trainingsphase wird die EIoU-Verlustfunktion zur Begrenzungsrahmenregression verwendet, um die Lokalisierungsgenauigkeit weiter zu verbessern. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Algorithmus eine durchschnittliche Überlappung (AO) von 74,6 % auf dem GOT-10K-Datensatz erreicht, eine Genauigkeit (P) von 91,4 % auf dem UAV123-Datensatz aufweist und zudem auf den Datensätzen LaSOT, TrackingNet und OTB100 hervorragende Tracking-Leistungen zeigt. Visuelle Ergebnisse bestätigen, dass der Algorithmus auch in komplexen Szenarien mit Verdeckung und Störungen durch ähnliche Objekte stabile und präzise Tracking-Ergebnisse liefert.

关键词

Zielverfolgung;Aufmerksamkeitsmechanismus;Tracking-Trajektorie;Zielverdeckung;Störungen durch ähnliche Objekte

阅读全文