Le suivi de l'objectif unique est l'une des tâches importantes de la vision par ordinateur, visant à localiser avec précision l'objectif dans une séquence vidéo. Bien que l'apprentissage profond ait favorisé un développement rapide dans le domaine du suivi de l'objectif unique, des problèmes tels que la déformation de l'objectif, un arrière-plan complexe, des obstructions et des changements d'échelle restent un défi. Cet article passe en revue de manière systématique les méthodes de suivi de l'objectif unique basées sur l'apprentissage profond au cours des dix dernières années, couvrant les modèles séquentiels traditionnels basés sur les réseaux neuronaux convolutionnels, les réseaux neuronaux récurrents et les réseaux jumeaux hybrides basés sur les réseaux neuronaux convolutionnels et l'architecture de Transformer, ainsi que les toutes dernières méthodes entièrement basées sur le Transformer. Cet article évalue et analyse les performances des différents algorithmes sur des ensembles de données tels que OTB100, LaSOT et GOT-10K en termes de précision, de robustesse et d'efficacité de calcul, et examine les perspectives de recherche des algorithmes de suivi de l'objectif unique basés sur l'apprentissage profond.
关键词
Suivi de l'objectif unique; suivi visuel des objectifs; apprentissage profond; réseaux neuronaux convolutionnels