Reconocimiento de escenarios basado en el aprendizaje de la medida de profundidad y la segmentación semántica

JIA Xuan ,  

ZHANG Ye ,  

CHANG Xuling ,  

SUN Jianbo ,  

摘要

Para hacer frente al problema de la baja precisión en el reconocimiento de imágenes de escenas con diferencias interclase sutiles y una clasificación borrosa dentro de la clase. En este artículo se propone un nuevo marco de segmentación semántica. Mediante la introducción del aprendizaje de la medida de profundidad, se centra en las relaciones semánticas entre píxeles, mejorando así la precisión del modelo de reconocimiento. Primero, a través del módulo de píxel de pirámide de espacio vacío, se realiza la extracción de características, y luego, en el proceso de decodificación, se restauran mejor los detalles y los bordes de la imagen utilizando la fusión de características de alta resolución superficial y características de baja resolución profunda. Luego, en el módulo de aprendizaje de la medida de profundidad al aprender un espacio de inclusión semántica de píxeles bien estructurado, maximizando la distancia euclidiana entre los píxeles de diferentes clases y minimizando la distancia euclidiana entre los píxeles de la misma clase, clasificándolos eficazmente. Finalmente, usando una combinación de pérdida de enfoque y pérdida de contraste, equilibre el peso de las diferentes muestras para medir más precisamente el rendimiento del modelo, mejorando así la precisión en el reconocimiento de escenarios y la robustez. Los resultados experimentales confirman que el modelo en los conjuntos de datos abiertos ADE20K y Cityscapes promedia 47.6% y 83.1% respectivamente.

关键词

Aprendizaje profundo; Aprendizaje de la medida de profundidad; Segmentación semántica; Reconocimiento de escenas; Desigualdad de clases

阅读全文