Для решения проблемы снижения производительности при однозадачном отслеживании из-за遮挡 цели и помех от похожих объектов, в данной статье предложен алгоритм отслеживания целей на основе Transformer и траектории отслеживания. Алгоритм использует Vision Transformer (ViT) в качестве основной сети. Для уменьшения чувствительности Transformer к фоновым данным при извлечении признаков введен слой фокусировки, который регулирует распределение внимания, усиливая вес области цели и подавляя фоновый шум; одновременно разработан модуль гибридного внимания, который декартирует признаки шаблона и области поиска: в области шаблона применяется механизм самовнимания для усиления признаков цели, а в области поиска через перекрестное внимание объединяется глобальная контекстная информация. Кроме того, в алгоритме реализован постпроцессор на основе траектории отслеживания, который формирует последовательность предыдущих результатов в траекторию цели и с помощью фильтра Калмана оценивает надежность прогнозируемых ограничивающих рамок. Если надежность выше заданного порога, прогнозируемая рамка выводится напрямую; в противном случае для прогнозируемой рамки и кандидатов проводится обратное отслеживание с генерацией нескольких траекторий и вычислением их соответствия цели, после чего выбирается оптимальная рамка для улучшения результата отслеживания. На этапе обучения используется функция потерь EIoU для регрессии ограничивающей рамки с целью повышения точности локализации. Экспериментальные результаты показывают, что предложенный алгоритм достигает среднего перекрытия (AO) 74.6% на датасете GOT-10K, точности (P) 91.4% на UAV123 и демонстрирует отличные результаты на датасетах LaSOT, TrackingNet и OTB100. Визуализация подтверждает стабильность и точность отслеживания алгоритма в сложных сценариях с遮挡 и помехами от похожих объектов.
关键词
отслеживание цели;механизм внимания;траектория отслеживания;遮挡 цели;помехи от похожих объектов