Videozusammenfassungsmodell basierend auf multiskaliger zeitlicher Modellierung und dynamischer räumlicher Merkmalsfusion

LI Zehui ,  

ZHANG Lin ,  

SHAN Xianying ,  

SHEN Ganjie ,  

摘要

Zur Lösung des Problems unzureichender multiskaliger zeitlicher Modellierung und lokaler Merkmalmodellierung bei der Videozusammenfassung schlägt dieser Artikel ein Videozusammenfassungsmodell vor, das multiskalige zeitliche Verschiebung mit einem deformierbaren lokalen Aufmerksamkeitsmechanismus kombiniert. Zunächst wurde ein multiskaliges adaptives bidirektionales Zeitverschiebungsmodul (MAB-TSM) entworfen, das durch lernbare dynamische Verschrittsschritte und multiskalige dilatierte Faltung eine adaptive Modellierung kurz- und langfristiger zeitlicher Abhängigkeiten von Videos ermöglicht; zweitens wurde ein deformierbares lokales Aufmerksamkeitsmodul (DALAM) entworfen, das eine dynamische Videoschnittstrategie mit einem adaptiven Mechanismus zur Anpassung der Abtastpositionen kombiniert, wodurch die Rechenkomplexität reduziert und die detaillierte Merkmalsdarstellung lokaler Schlüsselbereiche verbessert wird; zudem wurde das BiFPN-Netzwerk zur skalenübergreifenden Fusion verbessert, indem auf Basis von BiFPN ein skalenübergreifendes Aufmerksamkeitsverstärkungsmodul eingeführt wurde, das die komplementäre Darstellung multiskaliger Merkmale verbessert. Das vorgeschlagene Modell wurde mehrfach auf den Datensätzen SumMe und TVSum getestet. Das Modell erreichte im Standardmodus F1-Werte von 56,8 % bzw. 62,6 % und übertraf bestehende Methoden, wobei die Kendallsche Rangkorrelationskoeffizienten und Spearmanschen Rangkorrelationskoeffizienten 0,153 bzw. 0,200 betrugen und eine gute Konsistenz zeigten. Die Experimentergebnisse bestätigen die Genauigkeit und Wirksamkeit des Modells bei der Videozusammenfassung.

关键词

Videozusammenfassung;multiskalige zeitliche Modellierung;Zeitverschiebungsmodul;deformierbare Aufmerksamkeit;lokaler Aufmerksamkeitsmechanismus

阅读全文