Pour résoudre le problème de la faible précision de détection des petites cibles dans des scènes de prise de vue aérienne en raison de la grande variation d'échelle de la cible et de l'arrière-plan complexe, un algorithme de détection basé sur la perception coordonnée de plusieurs échelles a été proposé. Tout d'abord, un module d'amélioration multi-échelle léger (LMEM) a été conçu, combinant un mécanisme d'attention pour activer des informations de saillance locales, renforçant ainsi la capacité de capture des caractéristiques des petites cibles. Ensuite, une architecture modulaire de fusion de caractéristiques à travers les niveaux en fonction du contexte (CCFFAM) a été conçue, intégrant une attention de champ réceptif et une technique d'échantillonnage dynamique pour réaliser l'alignement double espace-caractéristiques au niveau multiscalaires et la fusion pondérée adaptative avec des poids auto-alignés. Enfin, la distribution de l'échelle de la tête de détection a été reconstruite, et la fonction de perte d'origine a été remplacée par Focaler-CIoU pour optimiser le processus de régression de la boîte englobante, assurant ainsi une efficacité de détection élevée du modèle. Les expériences sur les ensembles de données VisDrone2019 et DOTAv1 ont montré que la méthode proposée avait réduit de 27.9 % (2.17M) le nombre de paramètres du modèle par rapport au modèle d'origine, et les mAP avaient augmenté respectivement de 5.3 % et 1.4 %, confirmant ainsi la bonne efficacité de l'algorithme.
关键词
Prise de vue aérienne par drone; interaction multidimensionnelle; fusion de caractéristiques à travers les niveaux; légèreté