En raison des limites de puissance de calcul de la plate-forme matérielle et des ressources de stockage, la mise en œuvre efficace et écoénergétique des réseaux neuronaux convolutifs (CNN) via des systèmes embarqués reste un défi majeur pour les concepteurs matériels. Sur cette base, cet article propose une conception complète d'un système embarqué hétérogène réalisé avec un système sur puce (SoC) à réseau de porte programmable en champ (FPGA). Cette conception utilise une structure de multiplexage d'entrée en cascade, tout en exécutant deux opérations de multiplication et d'accumulation indépendantes dans un seul DSP, réduisant ainsi l'accès à la mémoire externe, améliorant l'efficacité du système et réduisant la consommation d'énergie, améliorant ainsi l'efficacité énergétique de 38,7% par rapport à d'autres solutions. Cette conception (cadre) a finalement été déployée avec succès sur de grands réseaux CNN sur des appareils à faible coût, augmentant considérablement l'efficacité énergétique du modèle de réseau, atteignant même 102 Gops/W sur l'appareil ZYNQ XC7Z045. De plus, lors de l'utilisation de ce cadre pour l'inférence des couches convolutionnelles du modèle VGG-16, le taux de trame peut atteindre 10,9 ips, démontrant pleinement que cette conception peut accélérer efficacement les réseaux neuronaux convolutifs dans des environnements énergétiquement contraints.