Одна из важных задач компьютерного зрения - отслеживание одиночной цели, цель которого точно определить местоположение цели на видеопоследовательности. Хотя глубокое обучение продвигает быстрое развитие области отслеживания одиночной цели, проблемы такие как искажение цели, сложный фон, заслонение и изменение масштаба по-прежнему вызывают вызовы. В этой статье систематически рассматриваются методы отслеживания одной цели на основе глубокого обучения за последние десять лет, включая традиционные последовательные модели, основанные на сверточных нейронных сетях, рекуррентных нейронных сетях и гибридных двойных сетях, основанных на сверточных нейронных сетях и архитектуре Transformer, и последние методы, полностью основанные на Transformer. В этой статье производится оценка и анализ производительности различных алгоритмов на наборах данных, таких как OTB100, LaSOT и GOT-10K, в терминах точности, надежности и вычислительной эффективности, а также предпосылки для будущих исследований алгоритмов отслеживания одиночной цели, основанных на глубоком обучении.