Die Schätzung der 6D-Position, die Genauigkeit und Anwendbarkeit in Einklang bringt, war immer ein Forschungsthema und eine Herausforderung. Hierfür wurde ein 6D-Positionsabschätzung-Netzwerk auf der Grundlage multimodaler Daten vorgeschlagen, das die Aufmerksamkeitsmerkmalfusion nutzt. Zunächst wurde eine tiefere Struktur des Komprimierungsaktivierungsmoduls eingeführt, das durch Anpassen der Gewichte jedes Kanals die abhängige Expansion verstärkt und das Sichtfeld erweitert, was die Verarbeitungseffekte der RGB-Bildmerkmale verbessert. Darüber hinaus wurde für multimodale Daten ein iteratives Aufmerksamkeitsmerkmal-Fusionsmodul in der Merkmalsfusionsphase eingesetzt, das durch mehrfache iterative Fusionsvorgänge das Problem ungleicher Skalierung in der globalen Merkmalsfusion löst, wodurch multimodale Daten präziser erfasst und integriert werden und die Schätzung der Position erheblich verbessert wird. Schließlich wurde zur quantitativen Bewertung der Robustheit und Anwendbarkeit des Modells in komplexen Umgebungen ein unsichtbarer Prozentsatzindikator eingeführt, der die Leistung des Modells bei der Behandlung teilweiser Verdeckung oder komplexer Hintergründe bewerten kann. Experimente zur Positionsprognose auf einem öffentlichen Datensatz bestätigten, dass das verbesserte Modell nicht nur eine genaue Prognose der Position im Validierungsdatensatz erreichen kann, sondern auch in komplexen Umgebungen im Vergleich zum vorgeschlagenen dichten Fusion-Modell anwendbarer ist.