Para abordar el problema de la baja precisión en la detección de pequeños objetivos en escenas de fotografía aérea debido a la gran variación de escala del objetivo y el complejo fondo, se propone un algoritmo de detección basado en la percepción coordinada de varias escalas. En primer lugar, se ha diseñado un módulo ligero de mejora multi-escala (LMEM), que combina un mecanismo de atención para activar información destacada local y mejorar la capacidad de captura de características de pequeños objetivos. A continuación, se ha diseñado una arquitectura modular de fusión de características a través de los niveles basada en el contexto (CCFFAM), que integra una atención al campo receptivo y una técnica de muestreo dinámico para realizar alineaciones dobles en el espacio-características a nivel multiescala y una fusión ponderada adaptativa con pesos autoalineados. Por último, se ha reconstruido la distribución de la escala de la cabeza de detección, y se ha sustituido la función de pérdida original por Focaler-CIoU para optimizar el proceso de regresión del cuadro delimitador, garantizando así una alta eficacia en la detección del modelo. Los experimentos en los conjuntos de datos VisDrone2019 y DOTAv1 mostraron que el método propuesto redujo en un 27.9 % (2.17M) el número de parámetros del modelo en comparación con el modelo original, y que los mAP aumentaron en un 5.3 % y un 1.4 % respectivamente, lo que confirma la buena eficacia del algoritmo.
关键词
Fotografía aérea con drones; interacción multidimensional; fusión de características a través de los niveles; ligereza