Um das Problem der geringen Genauigkeit bei der Erkennung kleiner Ziele in Luftaufnahmen aufgrund der großen Skalenvariation des Ziels und des komplexen Hintergrunds zu lösen, wird ein auf koordinierter Wahrnehmung mehrerer Skalen basierender Erkennungsalgorithmus vorgeschlagen. Zunächst wurde ein leichtes Multi-Scale-Enhancement-Modul (LMEM) entworfen, das einen Aufmerksamkeitsmechanismus zur Aktivierung lokaler auffälliger Informationen kombiniert und die Erfassungsfähigkeit von Merkmalen kleiner Ziele verstärkt. Dann wurde eine modulare Architektur für die kontextgesteuerte, überkreuzende Merkmalsfusion (CCFFAM) entworfen, die die Beachtung rezeptiver Felder und eine dynamische Abtasttechnik integriert, um eine doppelte Ausrichtung im Multi-Scale-Feature-Space und ein adaptives gewichtetes Fusionsverfahren mit selbstausgerichteten Gewichten zu erreichen. Abschließend wurde die Verteilung des Detektionskopfs neu aufgebaut und die ursprüngliche Verlustfunktion durch Focaler-CIoU ersetzt, um den Prozess der Rahmenregression zu optimieren und eine hohe Detektionseffizienz des Modells zu gewährleisten. Experimente mit den Datensätzen VisDrone2019 und DOTAv1 zeigten, dass die vorgeschlagene Methode die Anzahl der Modellparameter im Vergleich zum Originalmodell um 27,9 % (2,17 M) reduzierte und die mAP jeweils um 5,3 % und 1,4 % erhöhte, was die gute Detektionseffizienz des Algorithmus bestätigte.
关键词
Drohnenluftbildaufnahme; multidimensionale Interaktion; Merkmalsfusion über Ebenen; Leichtigkeit