Pour résoudre le problème de faible extensibilité, de faible généralité et de coût élevé des méthodes traditionnelles utilisant un modèle CNN pour un seul objet, ainsi que pour améliorer les performances des méthodes multi-objectifs, cet article propose une architecture de réseau en une seule étape axée sur l'estimation de la posture 6D à plusieurs objectifs, conçue pour un extraction-décodeur multi-branches qui capture et agrège efficacement les caractéristiques détaillées. Nous proposons également un module d'optimisation et de sélection des caractéristiques, qui filtre les caractéristiques d'entrée pour extraire des caractéristiques multi-échelles. En combinant les deux, nous concevons une nouvelle structure de pyramide de caractéristiques qui améliore les performances générales du réseau et l'estimation des positions dans des scénarios de masquage. Des expériences ont été menées sur les ensembles de données synthétiques LINEMOD et Occluded LINEMOD. Les résultats montrent que la méthode proposée dans cet article améliore significativement le traitement des scénarios d'objets masqués par rapport aux méthodes avancées existantes telles que PyraPose, SD-Pose et CASAPose : une augmentation de 43,1 %, 16,1 % et 12 % respectivement sur les indices ADD/S-Recall. Il présente de meilleures performances lorsque le nombre de cibles est faible; avec 4 cibles, ses performances ont augmenté de 17 %. Des expériences de régression ont confirmé l'efficacité des différents modules. L'architecture en une seule étape multi-objectifs proposée dans cet article, en introduisant un extraction-décodeur multi-branches, un module d'optimisation et de sélection des caractéristiques, ainsi qu'une structure de pyramide de caractéristiques, permet de former un seul réseau pour traiter un nombre illimité de cibles et d'améliorer l'estimation des postures 6D dans des conditions de données synthétiques. Les résultats expérimentaux confirment l'efficacité de la méthode proposée dans cet article.
关键词
Estimation de 6D pose; réseau à une seule étape pour plusieurs objectifs; extraction-décodeur multi-branches; sélection de caractéristiques; données synthétiques