Angesichts der komplexen und sich ständig ändernden Verkehrsumgebung stoßen die Fußgänger-Tracking-Methoden häufig auf Probleme wie lokale Verdeckung und häufige Änderungen der Identifikationsfrequenz. Es wird eine neue Methode zur Mehrfachzielverfolgung von Fußgängern vorgeschlagen, die YOLOv8 (You Only Look Once-v8) und eine verbesserte Version des Deep Association Metric (Simple Online and Realtime Tracking with a Deep association metric, DeepSORT) kombiniert. Zunächst wird zur Verbesserung der Fähigkeit, Informationen über die Ziel-Fußgängermerkmale in dichten Verkehrsszenarien zu erfassen, in der Erkennungsphase der YOLOv8-Algorithmus verwendet. Dieser Algorithmus verfügt über eine effiziente Verarbeitungsfähigkeit für kleine Merkmale und gewährleistet eine präzise und schnelle Erkennung. Zweitens wird zur Erfüllung des Echtzeitbedarfs des Fußgänger-Trackings OSNet (Omni-Scale Network) als Merkmalsextraktionsnetzwerk in die DeepSORT eingeführt. OSNet bietet durch eine dynamische multimodale Fusion eine reichere und präzisere Informationsgrundlage für die nachfolgende Verfolgung. Darüber hinaus wurde zur Bewältigung der Einschränkungen des traditionellen Kalman-Filters in der nichtlinearen Bewegungsbahnvorhersage ein innovativer adaptiver Forgets-Kalman-Filter-Algorithmus (Filter Smoothing Kalman Algorithm, FSA) entwickelt. Dieser Algorithmus ermöglicht eine flexible Anpassung der Filterparameter, um die Unsicherheit der Fußgängerbewegung in komplexen Verkehrsszenarien wirksam zu bewältigen und die Vorhersagegenauigkeit signifikant zu verbessern. Darüber hinaus wurde zur Verbesserung der Stabilität und Genauigkeit der Datenübereinstimmung während des Verfolgungsprozesses der Original-Intersection-over-Union (IOU) Matching-Mechanismus von DeepSORT durch den verbesserten Complete-Intersection-over-Union (CIOU) Algorithmus ersetzt. CIOU berücksichtigt nicht nur die Überlappung zwischen den Zielen, sondern integriert auch geometrische Informationen wie Form und Größe, um die Fehl- und Fehlkennungsrate effektiv zu senken. Schließlich wurde zur weiteren Abschwächung des Einflusses von mehrfachem Rauschen auf die Tracking-Performance ein Trajektorien-Merkmal-Extraktor (GFModel) mit starker Generalisierungsfähigkeit eingeführt. Dieses Modell fusioniert lokale Details und globale Kontextinformationen durch die Mittelungspooling-Technik organisch, um die präzise Verfolgung und Vorhersage von Ziel-Fußgängertrajektorien zu erreichen. Die experimentellen Ergebnisse zeigen, dass diese Methode eine Tracking-Genauigkeit von bis zu 77,9% bei gleichzeitig beibehaltenen 55,8 Bildern pro Sekunde (Frame Per Second, FPS) erreicht und so den Anforderungen an eine effiziente und präzise Verfolgung in komplexen Verkehrsumgebungen vollständig gerecht wird.