Para abordar el problema del descenso en el rendimiento del seguimiento en seguimiento de objetivo único debido a la oclusión del objetivo y la interferencia de objetos similares, este artículo propone un algoritmo de seguimiento de objetivos basado en Transformer y la trayectoria de seguimiento. El algoritmo utiliza Vision Transformer (ViT) como red principal. Para mitigar la sensibilidad del Transformer a la información de fondo durante la extracción de características, se introduce una capa de enfoque para ajustar la distribución de atención, aumentando el peso de la región del objetivo y suprimiendo el ruido de fondo; al mismo tiempo, se diseña un módulo de atención híbrida para desacoplar las características de la plantilla y la región de búsqueda: la región de la plantilla utiliza un mecanismo de autoatención para fortalecer las características del objetivo, mientras que la región de búsqueda fusiona la información contextual global mediante atención cruzada. Además, el algoritmo introduce un posprocesador basado en la trayectoria de seguimiento que construye la secuencia de resultados históricos de seguimiento como trayectoria del objetivo, y utiliza un filtro de Kalman para evaluar la confiabilidad de las cajas delimitadoras predichas. Si la confiabilidad es superior al umbral establecido, se emite directamente la caja predicha; de lo contrario, se realiza un seguimiento inverso de la caja predicha y de las cajas candidatas para generar múltiples trayectorias y calcular su coincidencia con la trayectoria del objetivo, eligiendo la caja delimitadora óptima para optimizar los resultados del seguimiento. Durante la fase de entrenamiento se emplea la función de pérdida EIoU para la regresión de cajas, mejorando aún más la precisión de localización. Los resultados experimentales muestran que el algoritmo propuesto alcanza un índice de superposición promedio (AO) del 74.6% en el conjunto de datos GOT-10K, una precisión (P) del 91.4% en UAV123, y también presenta un excelente rendimiento de seguimiento en los conjuntos de datos LaSOT, TrackingNet y OTB100. Los resultados visuales verifican que el algoritmo mantiene un seguimiento estable y preciso en escenarios complejos como la oclusión y la interferencia de objetos similares.
关键词
seguimiento de objetivos; mecanismo de atención; trayectoria de seguimiento; oclusión de objetivos; interferencia de objetos similares