En escenarios complejos, los modelos de fusión a menudo tienen dificultad para extraer plenamente la estructura global a gran escala de las imágenes infrarrojas y las características locales a pequeña escala de las imágenes visibles, y fusionarlas de manera colaborativa, lo que conduce a efectos de fusión deficientes. Este artículo propone un principio de fusión colaborativa basado en la división de escalas, y diseña un nuevo modelo de fusión basado en la estructura de autoencoder, donde el codificador y el decodificador utilizan una arquitectura de redes neuronales convolucionales (CNN). El modelo utiliza un mecanismo de atención dual global, que extrae información de mapas de características agrupándolos en dirección longitud y ancho, y luego pondera los mapas de características mediante mapas de atención dual a través de canales cruzados, generando nuevos mapas de características que contienen más información global a gran escala, logrando la extracción de información de imágenes en múltiples dimensiones; utiliza un mecanismo de convolución de pooling dilatado multiescala, a través de varios tamaños de campos receptivos y operaciones de pooling promedio y mediano global para extraer características locales a pequeña escala de la imagen; el decodificador integra capas de conexión densa y conexiones de salto con la estructura a gran escala y los detalles a pequeña escala para que se fusionen colaborativamente y reconstruyan la imagen fusionada. Los resultados experimentales muestran que este método en los conjuntos de datos MSRS y TNO, en comparación con otros métodos, mejora la entropía de información, el gradiente promedio y la intensidad del borde en un 0,95 %, 6,28 %, 6,19 % y 1,75 %, 13,51 %, 11,75 % respectivamente. La frecuencia espacial en el conjunto de datos MSRS aumentó un 4,61 %, y en el conjunto TNO fue solo superada por el método MDLSR-RFM, mejorando efectivamente la calidad de las imágenes fusionadas en escenarios complejos, y también tiene buena estabilidad y capacidad de generalización.
关键词
fusión de imágenes infrarrojas y visibles;mejora de imágenes;atención global de doble grupo;convolución dilatada