Szenenerkennung basierend auf Tiefenmaßlernen und semantischer Segmentierung

JIA Xuan ,  

ZHANG Ye ,  

CHANG Xuling ,  

SUN Jianbo ,  

摘要

Um mit dem Problem der niedrigen Genauigkeit bei der Erkennung von Szenenbildern mit subtilen Unterschieden zwischen den Klassen und einer unscharfen Klassifizierung innerhalb der Klasse umzugehen. In diesem Artikel wird ein neuer Rahmen für die semantische Segmentierung vorgeschlagen. Durch die Einführung des Tiefenmaßlernens konzentriert sich auf die semantischen Beziehungen zwischen Pixeln, um die Genauigkeit des Erkennungsmodells zu verbessern. Zuerst durch Feature-Extraktion über das hohle Raum-Pixel-Pyramidenmodul, und dann im Dekodierungsprozess, stellen Sie die Details und Kanten des Bildes besser wieder her, indem Sie die Fusion von oberflächlichen hoch aufgelösten Features und tief aufgelösten Features verwenden. Dann im Deep Measure Learning-Modul durch das Lernen eines gut strukturierten semantischen Pixel-Einbettungsraums, um durch Maximierung des euklidischen Abstands zwischen Pixeln verschiedener Klassen und Minimierung des euklidischen Abstands zwischen Pixeln derselben Klasse effektiv zu klassifizieren. Schließlich, durch die Verwendung einer Kombination aus Fokusverlust und Kontrastverlust, gleichen Sie das Gewicht der verschiedenen Proben aus, um die Leistung des Modells genauer zu messen, und verbessern so die Genauigkeit der Szenenerkennung und die Robustheit. Experimentelle Ergebnisse bestätigen, dass das Modell in den öffentlichen Datensätzen ADE20K und Cityscapes durchschnittlich 47,6% bzw. 83,1% beträgt.

关键词

Tiefenlernen; Tiefenmaßlernen; Semantische Segmentierung; Szenenerkennung; Klassenungleichheit

阅读全文