InFortune Electronics | Weltweiter Distributor für elektronische Bauteile

Service-Hotline 00852-69118296

Startseite > Blogs

Ein Modell direkt auf dem Gerät mit einem einzigen MCU ausführen

6/3/2026 7:42:22 PM

Ein Modell auf einem einzelnen MCU auszuführen bedeutet, dass die Inferenz innerhalb des Controllers liegt, den das Produkt ohnehin schon besitzt. Es gibt keinen separaten Beschleuniger, keinen Applikationsprozessor, kein Betriebssystem, das hochfahren muss. Derselbe Chip tastet den Sensor ab, führt das Netz aus und reagiert auf das Ergebnis innerhalb der Schleife, die er bereits beherrscht. Für eine eng umrissene Aufgabe, die hineinpasst, ist dies der kleinste und günstigste Weg, einem Gerät Intelligenz zu verleihen.

Es funktioniert, wenn das Modell klein und die Aufgabe festgelegt ist. Einige hundert Kilobyte Flash für die Gewichte, einige zehn bis niedrige hundert Megahertz Takt und eine bekannte Eingabeform bilden das Budget. Innerhalb dieses Budgets läuft ein Schlüsselworterkenner, ein Vibrationsklassifikator oder ein einfaches Gestenmodell bequem. Außerhalb davon kommt der MCU ins Straucheln, und eine andere Bauteilklasse ist die ehrliche Antwort.

Der Reiz liegt in dem, was die Platine verlässt.

Wann ein einzelner Chip das ganze System sein kann

Das Argument für einen einzelnen MCU ist am stärksten, wenn die Alternative überdimensioniert ist. Ein separater Beschleuniger erkauft Durchsatz, den die Aufgabe nie nutzt, und er bringt eine zweite Lieferlinie, mehr Platinenfläche und einen zu entwerfenden Datenpfad mit sich. Zu wissen, wann ein MCU mit einem neuronalen Block einen separaten Beschleuniger ersetzt, ist vor allem eine Frage der Ehrlichkeit gegenüber der Modellgröße und der Rate, mit der es laufen muss. Passt das Netz auf den Chip und führt das Gerät einige Male pro Sekunde eine Inferenz aus, bringt das zusätzliche Silizium nichts ein.

Was wegfällt, ist real: ein Bauteil statt drei, ein Firmware-Abbild statt eines Hosts samt Treiber-Stack und ein Leistungswert, der in Milliwatt statt in Watt gemessen wird. Die Grenze ist ebenso real. Das Modell muss von Anfang an für das Bauteil entworfen werden, denn es gibt keinen Raum mehr zum Wachsen, sobald Flash und RAM verplant sind.

MCUs mit eingebautem neuronalem Block

STM32 MCU with a built-in NPU on a dev board

Die Mitte dieses Spektrums bildet der MCU, der eine kleine neuronale Hardware-Einheit neben seinem Kern trägt. Der Kern führt die Firmware aus; der neuronale Block erledigt die Multiply-Accumulate-Arbeit des Modells mit einem Bruchteil der Energie und Zeit, die der Kern dafür aufwenden würde. Genau das erlaubt es einem Mikrocontroller, echte Bild- oder Audioinferenz zu leisten, ohne selbst zu einem Beschleuniger zu werden.

Die Bauteile unterscheiden sich darin, wie weit sie diesen Gedanken treiben. STM32N6 als High-End-MCU mit eingebautem NPU steht an der Spitze, mit einer neuronalen Einheit, die leistungsfähig genug ist, um Modelle auszuführen, die eine Generation zuvor einen separaten Beschleuniger benötigt hätten, während die vertraute STM32-Toolchain und Versorgung dahinterstehen, was ein Team oft eher dazu bewegt als ein schlechter unterstütztes Bauteil mit einer größeren Zahl. Alif Ensemble E7, der einen NPU mit dem MCU kombiniert, verfolgt einen aggressiveren Ansatz und setzt einen dedizierten neuronalen Prozessor sowie mehrere Kerne auf ein einzelnes Bauteil, für ein Design, das Inferenz auf Beschleuniger-Niveau innerhalb eines Mikrocontroller-Leistungsbudgets verlangt. Beide stellen dieselbe Gegenfrage: wie viel des Modells die Werkzeuge des Herstellers tatsächlich auf den neuronalen Block abbilden können, denn die Operatoren, die auf den Kern zurückfallen, laufen langsam und löschen den Vorteil still aus. Der Wert der Energie pro Inferenz, der über ein Batteriedesign entscheidet, steht nicht auf der Vorderseite eines der beiden Datenblätter; er ergibt sich aus dem Profiling des echten Modells auf dem echten Bauteil, und es ist die Zahl, die zu messen sich lohnt, bevor die Wahl festgelegt wird.

Für ein Produkt, das mit einer kleinen Zelle auskommen und dennoch in Echtzeit klassifizieren muss, ist diese Klasse oft die einzige, die beide Randbedingungen zugleich erfüllt.

Allein über die Taktrate betrieben

Nicht jeder MCU braucht einen neuronalen Block. STM32H743VIH6 führt ein Bildverarbeitungsmodell auf einem hoch getakteten MCU aus und stützt sich stattdessen auf rohe Kerngeschwindigkeit und einen starken DSP, indem er einen Cortex-M7 deutlich über den Takt eines typischen Mikrocontrollers treibt und das Modell in Software durchschiebt. Es eignet sich für ein Team, das bereits auf STM32 arbeitet und eine leichte Bildverarbeitungsaufgabe hinzufügen möchte, ohne die Bauteilfamilie zu wechseln, und es tauscht die Energieeffizienz, die ein dedizierter Block mitbringen würde, gegen die Einfachheit, auf einem bekannten Kern zu bleiben.

Der Always-on-Fall mit Batteriebindung

Am unteren Ende des Leistungsspektrums ist die Randbedingung nicht der Durchsatz, sondern der Ruhestrom. Ein Gerät, das durchgehend zuhören oder beobachten muss, verbringt nahezu seine gesamte Energie zwischen den Inferenzen, sodass die entscheidende Größe ist, was das Bauteil im Wartezustand aufnimmt. Apollo4 für Always-on-Inferenz mit extrem niedrigem Stromverbrauch in einem Wearable ist um genau diese Zahl herum aufgebaut und hält Schlaf- und Aktivstrom niedrig genug, dass eine Knopfzelle oder eine kleine Lithiumzelle ein Modell rund um die Uhr über die gesamte Lebensdauer des Produkts betreiben kann.

Dies ist ein anderes Designproblem als die übrigen auf dieser Seite. Die maximale Inferenzgeschwindigkeit spielt kaum eine Rolle; entscheidend ist, dass das Bauteil eingeschaltet bleiben kann, ohne die Zelle zu entladen, und dass das Modell klein genug ist, um innerhalb der Energie zu laufen, die ein Wearable bei jedem Aufwachen erübrigen kann.

Prototyping und das leichte Ende

Nicht jeder Grund, ein Modell auf einen MCU zu setzen, ist ein Produktionsgrund. Manchmal geht es darum, herauszufinden, ob die Idee überhaupt funktioniert, bevor eine der schwierigeren Entscheidungen getroffen wird.

RP2040 für einen ersten Anlauf mit TinyML ist ein häufiger Ausgangspunkt: günstig, gut dokumentiert und leicht dazu zu bringen, ein kleines Modell auszuführen, was ihn zu einem risikoarmen Weg macht, herauszufinden, ob ein Netz grob in die Form eines Mikrocontrollers passt, bevor man sich auf ein Bauteil mit neuronalem Block festlegt. Was es lehrt, lässt sich übertragen; was es an Geschwindigkeit und Leistung misst, nicht, da sich ein Produktionsbauteil anders verhalten wird.

ATMEGA2560-16AU bei leichter Sensorik und Steuerung auf dem Gerät steht am anderen Rand des Gedankens, dort wo die Arbeit kaum noch ein Modell ist: Schwellenwertbildung, einfache Zustandsautomaten und Sensorverarbeitung auf einem 8-Bit-Kern, der diese Art von Aufgabe seit Jahren übernimmt. Es ist eine Erinnerung daran, dass nicht jede Sensorikaufgabe ein Netz braucht und dass das günstigste Bauteil, das die Aufgabe erledigt, manchmal das richtige ist.

Zwischen diesen beiden finden die meisten Teams das Bauteil, das zu dem Prototyp passt, den sie tatsächlich gebaut haben, statt zu dem, den sie geplant hatten.

Das leichte Ende wird leicht unterschätzt. Eine Aufgabe, die so aussieht, als bräuchte sie Inferenz, erweist sich oft als eine, die einen sauberen Schwellenwert und ein wenig Hysterese braucht, und dies früh zu erkennen spart ein Bauteil und ein Leistungsbudget.

Was den Ausschlag gibt

Die Modellgröße und der Tastgrad setzen die Untergrenze, genau wie überall sonst in der Edge-KI. Bei einem Single-MCU-Design schlagen sie härter zu, denn es gibt nirgendwo einen Platz, um eine Unterschätzung zu verbergen, sobald Flash und RAM festgelegt sind.

Darüber hinaus zählt die Toolchain mehr als die Schlagzeile. Ein neuronaler Block ist nur so viel wert wie das, was sein Compiler darauf abbilden kann, und ein Bauteil mit dürftigen Werkzeugen kann den Großteil eines Modells auf dem Kern laufen lassen, mit einer Geschwindigkeit, die den Zweck zunichtemacht.

Die Versorgung gibt den Ausschlag. Ein MCU, der für ein Produkt gewählt wird, das über Jahre ausgeliefert wird, muss einer sein, der die ganze Zeit über noch in Stückzahlen beschafft werden kann, mit einer benannten Zweitquelle vor dem ersten Build statt nach der ersten Knappheit.

Zurück：Choosing the Accelerators and Edge AI Silicon That Let Inference Run on the Device

Weiter：Using an FPGA to Keep an Evolving Inference Architecture Flexible