Réseau d'estimation de la pose 6D basé sur des données multimodales avec fusion de caractéristiques d'attention

ZHAO Yuntao ,  

DENG Xinhui ,  

摘要

L'estimation de la pose 6D conciliant précision et applicabilité a toujours été un sujet de recherche et un défi. À cet effet, un réseau d'estimation de la pose 6D basé sur des données multimodales avec fusion de caractéristiques d'attention a été proposé. Tout d'abord, une structure de module d'excitation de compression plus profonde a été introduite, en ajustant les poids de chaque canal pour renforcer l'expansion dépendante et élargir le champ de vision, améliorant ainsi l'effet du traitement des caractéristiques d'image RVB. De plus, pour les données multimodales, un module itératif de fusion de caractéristiques d'attention a été déployé à l'étape de fusion des caractéristiques, en effectuant des opérations de fusion itérative multiples pour résoudre le problème d'incohérence d'échelle dans la fusion globale des caractéristiques, ce qui permet de capturer et d'intégrer de manière plus précise des données multimodales et d'améliorer considérablement l'estimation de la pose. Enfin, pour évaluer quantitativement la robustesse et l'applicabilité du modèle dans des environnements complexes, un indicateur de pourcentage invisible a été introduit, pouvant évaluer la performance du modèle dans le traitement de l'occultation partielle ou de l'arrière-plan complexe. Des expériences de prédiction de pose sur un ensemble de données public ont confirmé que le modèle amélioré est non seulement capable de réaliser une prédiction précise de la pose sur l'ensemble de données de validation, mais est également plus applicable dans des environnements complexes par rapport au modèle de fusion dense proposé dans cet article.

关键词

Estimation de la pose 6D; Données multimodales; Attention à la fusion des caractéristiques; Pourcentage invisible

阅读全文