Aufgrund der Beschränkungen der Rechenleistung der Hardwareplattform sowie der Speicherressourcen bleibt die Implementierung von energieeffizienten und effizienten faltenden neuronalen Netzen (CNN) unter Verwendung von eingebetteten Systemen für Hardware-Designer nach wie vor eine Hauptherausforderung. Auf dieser Grundlage wird in diesem Artikel ein vollständiges Design eines eingebetteten heterogenen Systems vorgestellt, das mit einem systemon-a-chip-Array aus programmierbaren Gate-Arrays (SoC) implementiert wird. Dieses Design verwendet eine kaskadierende Eingangsmultiplexerstruktur, während in einem einzigen DSP zwei unabhängige Multiplikations- und Akkumulationsoperationen ausgeführt werden, was den Zugriff auf externen Speicher reduziert, die Effizienz des Systems verbessert und den Energieverbrauch senkt, wodurch die Leistungseffizienz um 38,7% oder mehr im Vergleich zu anderen Lösungen erhöht wird. Dieses Design (Rahmen) wurde schließlich erfolgreich in großen CNN-Netzwerken auf kostengünstigen Geräten implementiert und steigerte signifikant die Leistungseffizienz des Netzwerkmodells. Sogar 102 Gops/W auf dem Gerät ZYNQ XC7Z045 erreichte. Darüber hinaus können beim Einsatz dieses Rahmens für die Inferenz von Faltungsschichten des VGG-16-Modells Bildraten von bis zu 10,9 fps erreicht werden, was deutlich zeigt, dass dieses Design in energiebeschränkten Umgebungen effektiv die Inferenz von faltenden neuronalen Netzen beschleunigen kann.