La estimación de la pose 6D que concilia la precisión y la aplicabilidad siempre ha sido un tema de investigación y un desafío. Con este fin, se propuso una red de estimación de la pose 6D basada en datos multimodales con fusión de características de atención. En primer lugar, se introdujo una estructura de módulo de excitación de compresión más profunda, ajustando los pesos de cada canal para fortalecer la expansión dependiente y ampliar el campo de visión, mejorando así el efecto del procesamiento de características de imagen RGB. Además, para los datos multimodales, se desplegó un módulo iterativo de fusión de características de atención en la etapa de fusión de características, realizando operaciones de fusión iterativa múltiple para resolver el problema de la escala desigual en la fusión global de características, lo que permite capturar e integrar de manera más precisa datos multimodales y mejorar considerablemente la estimación de la pose. Finalmente, para evaluar cuantitativamente la robustez y aplicabilidad del modelo en entornos complejos, se introdujo un indicador de porcentaje invisible, que puede evaluar el rendimiento del modelo en el procesamiento de ocultaciones parciales o de fondo complejo. Experimentos de predicción de pose en un conjunto de datos público confirmaron que el modelo mejorado no solo es capaz de lograr una predicción precisa de la pose en el conjunto de datos de validación, sino que también es más aplicable en entornos complejos en comparación con el modelo de fusión densa propuesto en este artículo.
关键词
Estimación de la pose 6D; Datos multimodales; Atención a la fusión de características; Porcentaje invisible