Infrarot- und Sichtbildfusion basierend auf globaler Doppelgruppenaufmerksamkeit

ZHAO Yang; YANG Wengui; GAO Cuiyun

doi:10.37188/CJLCD.2025-0195

Infrarot- und Sichtbildfusion basierend auf globaler Doppelgruppenaufmerksamkeit

DOI：10.37188/CJLCD.2025-0195

摘要

In komplexen Szenarien haben Fusionsmodelle oft Schwierigkeiten, die globale großskalige Struktur von Infrarotbildern und die lokalen kleinskalierten Detailmerkmale von sichtbaren Bildern vollständig zu extrahieren und sie kooperativ zu fusionieren, was zu schlechten Fusionsergebnissen führt. Dieser Artikel schlägt ein kooperatives Fusionsprinzip basierend auf der Skalenteilung vor und entwirft ein neues Fusionsmodell basierend auf der Autoencoder-Struktur, wobei Encoder und Decoder eine Architektur von Convolutional Neural Networks (CNN) verwenden. Das Modell nutzt einen globalen Doppelgruppen-Attentionsmechanismus, extrahiert Informationen aus Merkmal-Karten durch Gruppierung in Längen- und Breitenrichtung und gewichtet die Merkmalskarte anschließend durch einen kanalübergreifenden Doppelgruppen-Attentionsmechanismus, um eine neue Merkmal-Karte zu erzeugen, die mehr globale großskalige Strukturinformationen enthält, und somit die Bildinformation in mehreren Dimensionen extrahiert; nutzt zudem einen mehrskaligen dilatierten Pooling-Convolution-Mechanismus, der durch verschiedene Rezeptivfeldgrößen sowie globale Mittel- und Median-Pooling-Operationen lokale kleinskale Details der Bilder extrahiert; der Decoder integriert dichte Verbindungsschichten und Sprungverbindungen großer Strukturen und kleiner Details, damit diese kooperativ fusioniert werden und das fusionierte Bild rekonstruiert wird. Experimentelle Ergebnisse zeigen, dass diese Methode in den MSRS- und TNO-Datensätzen im Vergleich zu anderen Methoden die Informationsentropie, den mittleren Gradient und die Kantenintensität jeweils um 0,95 %, 6,28 %, 6,19 % und 1,75 %, 13,51 %, 11,75 % steigert. Die Raumfrequenz stieg im MSRS-Datensatz um 4,61 % und liegt im TNO-Datensatz nur hinter der MDLSR-RFM-Methode, was die Bildqualität der Fusion in komplexen Szenarien effektiv verbessert und zudem eine gute Stabilität und Generalisierungsfähigkeit aufweist.

关键词

Infrarot- und Sichtbildfusion;Bildverbesserung;globale Doppelgruppenaufmerksamkeit;dilatierte Faltung

阅读全文

Infrarot- und Sichtbildfusion basierend auf globaler Doppelgruppenaufmerksamkeit

ZHAO Yang ,

YANG Wengui ,

GAO Cuiyun ,

DOI：10.37188/CJLCD.2025-0195

摘要

关键词