El seguimiento de un solo objetivo es una de las tareas importantes en visión por computadora, con el objetivo de localizar con precisión el objetivo en una secuencia de video. Aunque el aprendizaje profundo ha impulsado un rápido desarrollo en el campo del seguimiento de un solo objetivo, problemas como la deformación del objetivo, un fondo complejo, obstrucciones y cambios de escala siguen siendo un desafío. Este artículo revisa de manera sistemática los métodos de seguimiento de un solo objetivo basados en el aprendizaje profundo en la última década, abarcando modelos secuenciales tradicionales basados en redes neuronales convolucionales, redes neuronales recurrentes y redes gemelas híbridas basadas en redes neuronales convolucionales y la arquitectura de Transformer, así como los últimos métodos completamente basados en Transformer. Este artículo evalúa y analiza el rendimiento de diferentes algoritmos en conjuntos de datos como OTB100, LaSOT y GOT-10K en términos de precisión, robustez y eficiencia de cálculo, y examina las perspectivas de investigación de algoritmos de seguimiento de un solo objetivo basados en el aprendizaje profundo.
关键词
Seguimiento de un solo objetivo; seguimiento visual de objetivos; aprendizaje profundo; redes neuronales convolucionales