Pour faire face au problème de la faible précision de reconnaissance des images de scènes ayant des différences interclasses subtiles et une classification floue à l'intérieur de la classe. Cet article propose un nouveau cadre de segmentation sémantique. En introduisant l'apprentissage de la mesure de la profondeur, en concentrant l'attention sur les relations sémantiques entre les pixels, afin d'améliorer la précision du modèle de reconnaissance. Tout d'abord, en extrayant des caractéristiques à travers le module de pyramide pyramidale d'abstraction spatiale, puis dans le processus de décodage, mieux restaurent les détails et les contours de l'image en utilisant la fusion de structure de caractéristiques haute résolution superficielle et de caractéristiques profondes à faible résolution. Ensuite, dans le module d'apprentissage de la mesure de la profondeur en apprenant une couche d'inclusion sémantique structurée bien structurée des pixels, en maximisant la distance euclidienne entre les pixels de différentes classes et en minimisant la distance euclidienne entre les pixels de la même classe, une classification efficace des pixels. Enfin, en utilisant une combinaison de perte de mise au point et de perte de contraste, équilibrez le poids des différents échantillons pour mesurer plus précisément les performances du modèle, améliorant ainsi la précision de la reconnaissance de scénarios et la robustesse. Les résultats expérimentaux confirment que le modèle sur les ensembles de données ADE20K et Cityscapes ouvrent un indice moyen de 47,6% et 83,1% respectivement.
关键词
Apprentissage en profondeur ; Apprentissage de la mesure de la profondeur ; Segmentation sémantique ; Reconnaissance de scènes ; Déséquilibre des classes