Pour résoudre les problèmes de perturbation locale dans un environnement de trafic complexe et variable, tels que le suivi des piétons et les changements fréquents d'ID, une méthode de suivi multi-cible des piétons est proposée en combinant YOLOv8 (You Only Look Once-v8) et une métrique d'association profonde améliorée (Simple Online and Realtime Tracking with a Deep association metric, DeepSORT). Tout d'abord, pour améliorer la capacité à capturer des informations de caractéristiques de piétons dans des environnements de trafic dense, l'algorithme YOLOv8 a été utilisé lors de la phase de détection, cet algorithme dispose d'une capacité efficace de traitement des caractéristiques de petite échelle, garantissant une détection précise et rapide. Deuxièmement, en réponse à la demande en temps réel de suivi des piétons, le réseau OSNet (Omni-Scale Network) a été introduit en tant que réseau d'extraction de caractéristiques basé sur DeepSORT. OSNet fournit une information plus riche et plus précise pour le suivi ultérieur grâce à une stratégie dynamique de fusion multi-échelle. Troisièmement, pour surmonter les limites de la prédiction de trajectoire de mouvement non linéaire du filtre de Kalman traditionnel, un nouvel algorithme de filtrage lissant adaptatif a été conçu (Filter Smoothing Kalman Algorithm, FSA), capable d'ajuster de manière flexible les paramètres de filtrage et de faire face efficacement à l'incertitude du mouvement des piétons dans des environnements de trafic complexes, améliorant significativement la précision de la prédiction. De plus, pour améliorer la stabilité et la précision de l'appariement des données dans le processus de suivi, le mécanisme d'appariement par intersection (IOU) d'origine de DeepSORT a été remplacé par l'algorithme d'intersection complète (CIOU) amélioré. Le CIOU prend en compte non seulement le degré de chevauchement des cibles, mais intègre également des informations géométriques telles que la forme et la taille, réduisant efficacement les taux de faux positifs et de faux négatifs. Enfin, pour atténuer davantage l'impact du bruit multiple sur les performances de suivi, un extracteur de caractéristiques de trajectoire à haute vitesse (GFModel) doté d'une forte capacité de généralisation a été introduit. Par des techniques de moyennage glissant, ce modèle fusionne les détails locaux avec le contexte global, assurant un suivi précis et une prédiction de la trajectoire du piéton cible. Les résultats expérimentaux montrent que cette méthode atteint une précision de suivi allant jusqu'à 77,9%, tout en conservant une vitesse de traitement allant jusqu'à 55,8 images par seconde (Frame Per Second, FPS), répondant pleinement aux besoins d'un suivi efficace et précis dans des environnements de trafic complexes.