Для решения проблемы снижения качества отслеживания при одноголовом трекинге, вызванной заслонением цели и помехами от похожих объектов, в данной статье предложен алгоритм отслеживания цели на основе Transformer и траектории трекинга. Алгоритм использует Vision Transformer (ViT) в качестве основной сети. Для смягчения чувствительности Transformer к фоновым сведениям при извлечении признаков введён слой фокусировки, который регулирует распределение внимания, усиливая вес области цели и подавляя фоновый шум; одновременно разработан гибридный модуль внимания для декорреляции признаков шаблона и области поиска, где область шаблона использует механизм самовнимания для усиления признаков цели, а область поиска применяет перекрестное внимание для интеграции контекстной информации. Кроме того, алгоритм внедряет постпроцессор на основе траектории, который строит цепочку исторических результатов отслеживания как траекторию цели и использует фильтр Калмана для оценки достоверности предсказанной ограничивающей рамки. Если достоверность выше заданного порога, рамка выводится напрямую; иначе для предсказанной и кандидатной рамок выполняется обратное отслеживание, генерируются несколько траекторий и вычисляется их соответствие траектории цели, после чего оптимальная рамка выбирается для улучшения результата трекинга. На этапе обучения используется функция потерь EIoU для регрессии ограничивающей рамки, что улучшает точность позиционирования. Экспериментальные результаты показывают, что предложенный алгоритм достигает среднего перекрытия (AO) 74.6% на датасете GOT-10K, точность (P) 91.4% на UAV123, а также демонстрирует хорошие результаты на датасетах LaSOT, TrackingNet и OTB100. Визуализация подтверждает стабильность и точность трекинга алгоритма в сложных сценариях с заслонениями и помехами от похожих объектов.
关键词
отслеживание цели;механизм внимания;траектория трекинга;заслонение цели;помехи похожих объектов