В связи с проблемами в существующих методах видео-суперразрешения, такими как неточная межкадровая выравниваемость в сложных движущихся сценах, недостаточное использование временной информации и высокая вычислительная сложность традиционных механизмов внимания, в данной статье предлагается видео-суперразрешающая сеть, объединяющая направленное оптическое течение с кросс-вниманием (OFCA-Transformer). Во-первых, разработан легковесный многоуровневый модуль оценки оптического потока для генерации многогранной информации о движении; во-вторых, инновационно введён кросс-внимательный механизм, направляемый оптическим потоком, формирующий локальное окно внимания вокруг предсказанной позиции оптического потока, что обеспечивает глубокую интеграцию явных геометрических приоритетов и неявного восприятия содержимого, повышая точность выравнивания и существенно снижая вычислительную сложность; наконец, построен модуль иерархической агрегации признаков для более эффективного объединения пространственно-временных признаков в архитектуре Transformer. При коэффициентах масштабирования ×2, ×3 и ×4 предложенный метод сравнивался с другими на трёх общедоступных наборах данных. Результаты показывают, что OFCA-Transformer по PSNR отстаёт всего на 0,16 дБ от других передовых методов, при этом количество параметров модели сокращено на 82,8%, что эффективно повышает вычислительную эффективность. Кроме того, предложенный метод демонстрирует более точное восстановление деталей и лучшую временную согласованность в сложных движущихся сценах, объективно достигая хороших количественных показателей для всех рассмотренных коэффициентов масштабирования.
关键词
Видео-суперразрешение;Transformer;Оценка оптического потока;Кросс-внимание;Выравнивание движения