Para resolver el problema de la baja escalabilidad, baja generalidad y alto costo computacional de los métodos tradicionales que utilizan un modelo CNN para un solo objeto, y para mejorar el rendimiento de los métodos multiobjetivo, este artículo propone una arquitectura de red de una sola etapa orientada a la estimación de la postura 6D de múltiples objetivos, diseñada con un extractor-decodificador de características de múltiples ramas que captura y agrega características detalladas de manera efectiva. También proponemos un módulo de optimización y selección de características, que filtra las características de entrada para extraer características a múltiples escalas. Al combinar ambos, diseñamos una nueva estructura de pirámide de características que mejora el rendimiento general de la red y la estimación de posiciones en escenarios de ocultamiento. Se realizaron experimentos en los conjuntos de datos sintéticos LINEMOD y Occluded LINEMOD. Los resultados muestran que el método propuesto en este artículo mejora significativamente el procesamiento de escenarios de objetos ocultos en comparación con métodos avanzados existentes como PyraPose, SD-Pose y CASAPose: un aumento del 43,1%, 16,1% y 12% respectivamente en los indicadores ADD/S-Recall. Presenta un mejor rendimiento cuando la cantidad de objetivos es baja; con 4 objetivos, su rendimiento aumentó un 17%. Los experimentos de ablativo confirmaron la eficacia de los diferentes módulos. La arquitectura de red multiobjetivo de una sola etapa propuesta en este artículo, al introducir un extractor-decodificador de características de múltiples ramas, un módulo de optimización y selección de características y una estructura de pirámide de características, permite entrenar una sola red para manejar cualquier cantidad de objetivos y mejorar la estimación de la postura 6D en condiciones de datos sintéticos. Los resultados experimentales confirman la eficacia del método propuesto en este artículo.
关键词
Estimación de postura 6D; red de una sola etapa para múltiples objetivos; extractor-decodificador de características de múltiples ramas; selección de características; datos sintéticos