Die Verfolgung eines einzelnen Ziels ist eine wichtige Aufgabe in der Computer Vision, die darauf abzielt, das Ziel in einer Videosequenz präzise zu lokalisieren. Obwohl das Deep Learning zu einer raschen Entwicklung in der Domäne der Verfolgung eines einzelnen Ziels geführt hat, bleiben Probleme wie Verzerrung des Ziels, komplexe Hintergründe, Verschattungen und Skalierungsänderungen eine Herausforderung. Dieser Artikel gibt einen systematischen Überblick über die in den letzten zehn Jahren auf Deep Learning basierenden Methoden zur Verfolgung eines einzelnen Ziels. Er umfasst traditionelle sequenzielle Modelle, die auf Convolutional Neural Networks, Rekurrenten Neural Networks und hybriden Twin-Netzwerken basieren, die auf Convolutional Neural Networks und der Transformer-Architektur beruhen, sowie die neuesten Methoden, die vollständig auf dem Transformer basieren. Dieser Artikel bewertet und analysiert die Leistung verschiedener Algorithmen auf Datensätzen wie OTB100, LaSOT und GOT-10K in Bezug auf Präzision, Robustheit und Berechnungseffizienz und untersucht die Forschungsperspektiven für Algorithmen zur Verfolgung eines einzelnen Ziels auf der Grundlage des Deep Learning.
关键词
Verfolgung eines einzelnen Ziels; visuelle Zielverfolgung; Deep Learning; Convolutional Neural Networks