Обеспечение баланса между точностью и применимостью оценки положения в пространстве 6D всегда было актуальной темой и трудной задачей. В этой связи была предложена сеть оценки положения в пространстве 6D на основе мультимодальных данных с объединением особенности внимания. Во-первых, была введена более глубокая структура модуля сжатия возбуждения, которая путем настройки весов каждого канала усиливает расширение зависимости и увеличение поля зрения, улучшая эффект обработки особенностей изображения RGB. Кроме того, для мультимодальных данных был развернут итеративный модуль слияния особенности внимания на этапе слияния особенностей, через многократные итеративные операции решающий проблему неравномерного масштабирования в глобальном слиянии особенностей, что позволяет более точно захватывать и объединять мультимодальные данные и значительно улучшать оценку положения. Наконец, для количественной оценки устойчивости и применимости модели в сложных средах был представлен процент невидимого показателя, который может оценивать производительность модели в обработке частичного закрытия или сложного фона. Через эксперименты по прогнозированию положения на общедоступном наборе данных было подтверждено, что улучшенная модель не только способна достичь точного прогноза положения на проверочном наборе данных, по сравнению с моделью плотного слияния, предложенная алгоритмическая модель в данной статье более применима в сложных средах.
关键词
Оценка положения в пространстве 6D; Мультимодальные данные; Внимание к объединению особенностей; Процент невидимого