Um das Problem der geringen Skalierbarkeit, geringen Verallgemeinerbarkeit und hohen Rechenkosten herkömmlicher Methoden, die ein CNN-Modell für ein einzelnes Objekt verwenden, zu lösen und die Leistung mehrerer Zielmethoden zu verbessern, schlägt dieser Artikel eine Architektur für ein einstufiges Netzwerk zur Schätzung der 6D-Posen für mehrere Ziele vor Entwickeln eines Multi-Branch-Feature-Extractor-Decoders, der detaillierte Merkmale effektiv erfasst und aggregiert. Wir schlagen auch ein Feature-Optimierungs- und Auswahlmodul vor, das die Eingangsmerkmale filtert, um mehrskalige Merkmale zu extrahieren. Durch die Kombination beider entwarfen wir eine neue Feature-Pyramidenstruktur, die die allgemeine Leistung des Netzwerks verbessert und die Schätzung der Positionen in Verbergungsszenarien verbessert. Experimente wurden an den synthetischen Datensätzen LINEMOD und Occluded LINEMOD durchgeführt. Die Ergebnisse zeigen, dass die in diesem Artikel vorgeschlagene Methode die Verarbeitung von Szenarien mit verdeckten Objekten im Vergleich zu bestehenden fortgeschrittenen Methoden wie PyraPose, SD-Pose und CASAPose signifikant verbessert: eine Steigerung von jeweils 43,1 %, 16,1 % und 12 % bei den ADD/S-Recall-Indikatoren. Es zeigt bessere Leistungen bei wenigen Zielen; bei 4 Zielen stieg die Leistung um 17 %. Ablationsversuche bestätigten die Wirksamkeit verschiedener Module. Die in diesem Artikel vorgeschlagene Multi-Task-Ein-Stufen-Netzwerkarchitektur, die einen Multi-Branch-Feature-Extractor-Decoder, ein Feature-Optimierungs- und Auswahlmodul sowie eine Feature-Pyramidenstruktur einführt, ermöglicht das Training eines einzigen Netzwerks für die Verarbeitung einer beliebigen Anzahl von Zielen und verbessert die Schätzung von 6D-Posen unter synthetischen Datensatzbedingungen. Experimentelle Ergebnisse bestätigen die Wirksamkeit der in diesem Artikel vorgeschlagenen Methode.
关键词
6D-Posen-Schätzung; Ein-Stufen-Netzwerk für mehrere Ziele; Multi-Branch-Feature-Extractor-Decoder; Merkmalsauswahl; synthetische Daten