Um das Problem der unzureichenden multiskaligen zeitlichen Modellierung und der lokalen Merkmalsmodellierung bei der Aufgabenstellung der Videozusammenfassung zu lösen, schlägt dieser Artikel ein Videozusammenfassungsmodell vor, das multiskalige zeitliche Verschiebung mit einem deformierbaren lokalen Aufmerksamkeitsmechanismus kombiniert. Zunächst wurde ein multiskaliges adaptives bidirektionales Zeitverschiebungsmodul (MAB-TSM) entwickelt, das durch lernbare dynamische Schrittweiten-Vorhersage und multiskalige dilatierte Faltung eine adaptive Modellierung der kurz- und langfristigen zeitlichen Abhängigkeiten von Videos ermöglicht; zweitens wurde ein deformierbares lokales Aufmerksamkeitsmodul (DALAM) entwickelt, das eine dynamische Videosegmentierungsstrategie mit einem adaptiven Sampling-Ort-Anpassungsmechanismus kombiniert, um die Rechenkomplexität zu reduzieren und gleichzeitig die feine Merkmalserfassung wichtiger lokaler Bereiche zu verbessern; zudem wurde das BiFPN-Netzwerk zur multiskaligen Fusion verbessert, indem ein skalenübergreifendes Aufmerksamkeitsverstärkungsmodul eingeführt wurde, das die komplementäre Darstellung multiskaliger Merkmale verbessert. Das vorgeschlagene Modell wurde mehrfach auf den Datensätzen SumMe und TVSum getestet und erreichte F1-Werte von 56,8 % bzw. 62,6 % im Standardmodus, was bestehende Methoden übertrifft, und die Kendall- und Spearman-Rangkorrelationskoeffizienten betrugen jeweils 0,153 und 0,200, was eine gute Übereinstimmung zeigt. Die experimentellen Ergebnisse bestätigen die Genauigkeit und Wirksamkeit des Modells für die Videozusammenfassungsaufgabe.