Dans le domaine de l'alerte aérienne, la technologie de détection des petites cibles infrarouges est essentielle pour la perception du champ de bataille à distance et par tous les temps. Pour résoudre le problème du faible taux de détection et du taux de fausses alarmes élevé provoqués par la faible proportion de pixels des petites cibles infrarouges et le manque de caractéristiques dans un contexte complexe, une méthode de détection des petites cibles infrarouges dans un contexte complexe basée sur un réseau de convolution tridimensionnelle spatio-temporelle a été proposée. Cette méthode propose un réseau principal d'extraction de caractéristiques combinant convolution 2D et convolution 3D, réalisant une perception collaborative de la structure des cibles et des variations temporelles grâce à l'intégration des caractéristiques de texture spatiale et des caractéristiques de mouvement entre les images ; basée sur les caractéristiques des petites cibles infrarouges, un module de contraste local a été conçu pour augmenter le champ de perception et renforcer les caractéristiques ; un mécanisme d'attention asymétrique a été introduit pour la fusion des caractéristiques, augmentant la conservation des informations de texture et de position ; enfin, les résultats de détection sont calculés via une fonction de perte de régression ponctuelle. Les expériences ont été réalisées sur des jeux de données publics et auto-constitués pour l'entraînement et les tests. Les résultats montrent que l'algorithme amélioré, comparé aux réseaux existants de détection des petites cibles infrarouges, augmente le taux de rappel d'au moins 7,52 % et la précision moyenne d'au moins 6,46 %. Il peut être efficacement appliqué à la détection des petites cibles infrarouges dans des environnements complexes et démontre une bonne robustesse et adaptabilité.