Para abordar el problema del descenso en el rendimiento del seguimiento de un solo objetivo debido a la oclusión del objetivo y la interferencia de objetos similares, en este artículo se propone un algoritmo de seguimiento basado en Transformer y la trayectoria de seguimiento. El algoritmo utiliza Vision Transformer (ViT) como red principal. Para mitigar la sensibilidad del Transformer a la información de fondo durante la extracción de características, se introduce una capa de enfoque para ajustar la distribución de la atención, aumentando el peso de la región objetivo y suprimiendo el ruido de fondo; al mismo tiempo, se diseñó un módulo de atención híbrido para desacoplar las características de la plantilla y la región de búsqueda, donde la región de plantilla utiliza un mecanismo de autoatención para reforzar las características del objetivo, y la región de búsqueda fusiona la información del contexto global mediante atención cruzada. Además, el algoritmo introduce un postprocesador basado en la trayectoria de seguimiento que construye la secuencia de resultados históricos de seguimiento como una trayectoria objetivo y utiliza un filtro de Kalman para evaluar la confiabilidad del cuadro delimitador predicho. Si la confiabilidad supera un umbral establecido, se emite directamente el cuadro predicho; de lo contrario, se realiza un seguimiento inverso para los cuadros predichos y candidatos, generando múltiples trayectorias y calculando su coincidencia con la trayectoria objetivo, eligiendo el cuadro delimitador óptimo para optimizar los resultados de seguimiento. En la fase de entrenamiento se utiliza la función de pérdida EIoU para la regresión del cuadro delimitador, mejorando aún más la precisión del posicionamiento. Los resultados experimentales muestran que el algoritmo propuesto alcanza una tasa de superposición promedio (AO) del 74.6% en el dataset GOT-10K, una precisión (P) del 91.4% en UAV123, y también muestra un buen rendimiento de seguimiento en datasets como LaSOT, TrackingNet y OTB100. Los resultados visuales verifican que el algoritmo puede mantener un seguimiento estable y preciso incluso en escenarios complejos con oclusiones e interferencias de objetos similares.
关键词
seguimiento de objetivos;mecanismo de atención;trayectoria de seguimiento;oclusión de objetivo;interferencia de objetos similares