InFortune Electronics | Weltweiter Distributor für elektronische Bauteile

Service-Hotline 00852-69118296

Startseite > Blogs

Ein FPGA einsetzen, um eine sich entwickelnde Inferenzarchitektur flexibel zu halten

6/3/2026 7:53:53 PM

Ein FPGA ist rekonfigurierbare Hardware. Seine Logik wird erst nach der Fertigung des Chips festgelegt und lässt sich im Feld neu definieren, und genau diese eine Eigenschaft begründet seinen Platz in einem Inferenz-Design. Solange das Modell oder die Architektur darum herum noch in Bewegung ist, bewegt sich der Baustein mit, nimmt eine neue Konfiguration auf, wo ein festverdrahteter Chip ein neues Tape-out bräuchte. Diese Flexibilität wird mit Leistungsaufnahme, mit Stückkosten und mit Entwicklungszeit bezahlt, weshalb der Griff zum FPGA eine bewusste Wette ist und kein selbstverständlicher Ausgangspunkt. Ein Team, das sich dafür entscheidet, kauft sich die Option, seine Meinung zu ändern, nachdem die Hardware existiert, und diese Option hat ihren Preis auf jeder ausgelieferten Platine.

Die Wette zahlt sich in einigen ganz bestimmten Fällen aus, und diese ehrlich zu benennen ist der erste Schritt. Einer ist ein Netz, das sich noch nicht gesetzt hat und sich nach der Auslieferung des Produkts noch ändern kann, sodass der Datenpfad im Feld editierbar bleiben muss. Ein zweiter ist ein Design, das parallele Daten mit hoher Rate aufnimmt, mehrere Kamera-Lanes oder ein breites Sensor-Array, schneller als ein sequenzieller Prozessor sie einlesen kann. Ein dritter ist ein Produktionsvolumen, das zu gering ist, um die einmaligen Kosten eines kundenspezifischen Chips wieder hereinzuholen, wo das FPGA überhaupt der günstigste Weg zur Hardware ist. Verlässt man diese Fälle, erledigt ein Prozessor mit NPU oder ein fester Beschleuniger dieselbe Aufgabe bei geringerer Leistungsaufnahme und niedrigeren Kosten.

Ein FPGA kauft eher Zeit als Durchsatz.

Wenn die Architektur sich noch nicht gesetzt hat

Der eindeutigste Grund, sich auf ein FPGA einzulassen, ist Unsicherheit über den Algorithmus. Zu verstehen, warum ein Team zum FPGA greift, bevor sich die Architektur gesetzt hat, läuft auf die Kosten hinaus, in festem Silizium falsch zu liegen. Ändert sich ein Modell, nachdem ein ASIC festgeschrieben wurde, ist der Chip Ausschuss und der Zeitplan dahin; ein FPGA nimmt einen frischen Bitstream auf und bleibt in Bewegung. Bei einem Produkt, dessen Algorithmus noch im Fluss ist, oder bei einem, das einem noch nicht ratifizierten Standard hinterherläuft, ist es die Freiheit, den Datenpfad nach dem Bau der Platine neu zu definieren, für die bezahlt wird.

Diese Freiheit hat ein Verfallsdatum. Sobald das Design eingefroren ist und das Volumen steigt, wird aus derselben Flexibilität totes Gewicht, das Leistung zieht und Geld kostet für eine Rekonfiguration, die nie kommt. Teams, die FPGAs gut einsetzen, behandeln den Baustein als eine Etappe und nicht als Ziel, und sie planen den Wechsel zu einem günstigeren festen Baustein, sobald die Architektur sich nicht mehr ändert. Die Kunst liegt darin, das Einfrieren kommen zu sehen und den Umstieg richtig zu terminieren.

Fabric mit einem Prozessor daneben

Zynq SoC FPGA board pairing Arm cores with fabric

Eine ganze Reihe von Inferenz-Designs braucht sowohl einen Prozessor als auch kundenspezifische Logik, und ein SoC-FPGA bringt beides auf einen Die. Der Prozessor führt die Anwendung und die Verwaltungsaufgaben aus; das Fabric übernimmt die parallele oder zeitkritische Arbeit, die eine CPU ausbremsen würde. Beides auf einem Baustein zu halten vermeidet eine Chip-zu-Chip-Verbindung, lässt die beiden Hälften Speicher teilen und hält die Latenz zwischen ihnen niedrig genug für eine enge Vision- oder Regelschleife.

Der XC7Z020 als Zynq-Baustein, der Arm-Kerne für die Inferenz mit Fabric kombiniert, ist die übliche Ausprägung dieser Idee. Die Arm-Kerne booten ein Betriebssystem und führen die Teile der Pipeline aus, die zur Software passen, während die programmierbare Logik die Vorverarbeitung, das Windowing oder die eine Schicht übernimmt, die im Gleichschritt mit einem eintreffenden Stream laufen muss. Diese Aufteilung ist das eigentliche Designproblem. Arbeit, die regelmäßig, parallel und bandbreitengebunden ist, gehört ins Fabric; Arbeit, die unregelmäßig oder kontrolllastig ist, gehört auf die Kerne; und zieht man diese Grenze falsch, verschwendet man entweder Silizium oder Entwicklermonate. Die beiden Seiten reden über einen On-Chip-Bus und einen gemeinsamen Speichercontroller miteinander, sodass die Art, wie Daten zwischen ihnen wandern, und wie oft, den gelieferten Durchsatz eher bestimmt als die Größe der Logik. Ein Design, das Pixel durch das Fabric streamt und kompakte Merkmale an die Kerne übergibt, fliegt; eines, das große Puffer hin und her schiebt, erstickt an seinem eigenen Interconnect. Die Entwicklung ist die andere Hälfte der Kosten. Die Fabric-Seite aufzubauen bedeutet High-Level-Synthese oder handgeschriebenes RTL, ein Ablauf, den nur wenige Embedded-Teams dauerhaft besetzt halten, und das Inbetriebnehmen eines SoC-FPGA dauert deutlich länger als bei einem Mikrocontroller oder einem Applikationsprozessor. Der Baustein belohnt ein Design, das beide Hälften wirklich braucht, und bestraft eines, das ihn für Reserven gewählt hat, weshalb die ehrliche Frage lautet, ob das Fabric vom ersten Tag an einträgliche Arbeit leistet oder bloß als Versicherung herumsitzt.

Für ein Design, das sich auf einen Prozessor und einen festen Block kundenspezifischer Logik festgelegt hat, ist diese Bausteinklasse oft die sauberste Einchip-Antwort, und sie hält die Tür offen, die Logik später zu überarbeiten.

Reines Fabric für ein kleines Netz

Wenn ein Design rekonfigurierbare Logik braucht, aber keinen verdrahteten Prozessor, ist reines Fabric leichter und günstiger mitzuführen. Der XC7A35T, der ein kleines Netz auf Artix-Fabric beschleunigt, passt zu dem Fall, in dem ein bescheidenes Modell oder eine Stufe einer größeren Pipeline neben einem separaten Host läuft, der alles Übrige erledigt. Das Fabric leistet die regelmäßige Multiply-Accumulate-Arbeit in der Breite und Parallelität, die das Netz verlangt, und nicht mehr.

Der Kompromiss gegenüber einem SoC-Baustein ist die Integration. Es gibt jetzt einen Host irgendwo anders auf der Platine und eine Verbindung, die zwischen ihm und dem Fabric zu entwerfen ist, mit dem Timing und dem Protokoll, das damit einhergeht. Im Gegenzug kostet der Baustein weniger und zieht weniger als einer, der einen nie genutzten Prozessor mitschleppt, was zu einem Design passt, dessen Software bereits bequem auf einem Chip lebt, auf den es festgelegt ist. Die Entscheidung lautet, ob die eingesparten Kosten und die eingesparte Leistung den zusätzlichen Aufwand auf Platinenebene aufwiegen.

Wenn die Leistungsaufnahme die Randbedingung ist

iCE40 ultra-low-power FPGA board for vision preprocessing

Am unteren Ende der Leistungsskala ist das Fabric klein und die Aufgabe eng begrenzt, und die Kennzahl, die die Wahl bestimmt, ist das, was der Baustein zieht, während er eine einfache Funktion durchgängig aufrechterhält. Hier hört ein FPGA auf, eine Recheneinheit zu sein, und wird zur Glue-Logik mit etwas Intelligenz: ein Stück rekonfigurierbarer Hardware, das einem Sensor vorgeschaltet ist und die Arbeit erledigt, die sonst einen viel größeren Chip aufwecken würde.

Der iCE40UP5K für die Vorverarbeitung in der Edge-Vision mit extrem niedriger Leistungsaufnahme ist für diese Rolle gebaut. Er betreibt eine ständig aktive Vorverarbeitungsstufe, Bewegungs-Gating oder einen Filter im ersten Durchlauf auf einem niedrig aufgelösten Stream, bei einer Leistung, die niedrig genug ist, dass der Hauptprozessor schlafen bleibt, bis der kleine Baustein entscheidet, dass es etwas gibt, wofür sich das Aufwecken lohnt. Die vorgelagert eingesparte Energie, über jede Stunde, die das Gerät damit verbringt, zu beobachten, wie nichts geschieht, ist das ganze Argument, und das Fabric ist auf diese eng begrenzte Aufgabe dimensioniert und nicht auf den Spitzendurchsatz.

Der CrossLink-NX, der parallele Bildsensordaten verarbeitet, steht mit einer anderen Stärke daneben: das Verschieben und Umformatieren der parallelen Ausgabe eines Bildsensors mit hoher Rate, häufig als Brücke von MIPI-Lanes in das Format, das der nachgelagerte Prozessor zu sehen erwartet. Er rechtfertigt seinen Platz, wenn der Engpass darin besteht, die Pixel sauber vom Sensor und in das System zu bekommen, und nicht darin, ein Modell darauf laufen zu lassen, sobald sie angekommen sind.

Beide Bausteine machen am Ende dieselbe Aussage. Ein kleines Fabric mit niedriger Leistungsaufnahme, an der richtigen Stelle platziert, nimmt einem größeren Chip Arbeit ab, und das gesamte System zieht weniger Leistung, weil es dort sitzt.

Was das FPGA um sich herum braucht

Ein FPGA hält keine Logik, sobald die Versorgung abgeschaltet ist; es lädt seinen Bitstream bei jedem Boot. Das macht den Konfigurationsspeicher zu einem Teil des Designs und nicht zu einem Zubehör, das am Ende angeflanscht wird. Der XC17256EPCG20C als Konfigurationsspeicher für ein FPGA-Design hält den Bitstream, der das Fabric hochbringt, und seine Größe und Lesegeschwindigkeit bestimmen, wie lange der Baustein nach dem Einschalten braucht, um nutzbar zu werden, was bei einem Gerät zählt, das aufwacht und schläft, um Energie zu sparen. Ihn in der frühen Planung auszulassen ist ein altbekannter Weg, bei einer Platine zu landen, die zu nichts hochfährt, und bei einem Zeitplan, der eine Woche damit verliert, herauszufinden, warum.

Vom Prototyp zur Serie

Ein FPGA ist oft der richtige Baustein für die ersten tausend Stück und der falsche für die nächsten hunderttausend. Anfangs ist die Freiheit, die Logik neu zu flashen, während der Algorithmus reift, genau das, was das Projekt braucht, und die höheren Stückkosten fallen gegenüber dem Wert, überhaupt auszuliefern, kaum ins Gewicht. Sobald sich das Design setzt und die Zahlen wachsen, beginnen genau diese Kosten zu dominieren, und die ungenutzte Flexibilität wird zu einem Posten ohne Gegenwert.

Die Teams, die das gut handhaben, planen den Umstieg von Anfang an ein. Sie halten die Teile des Systems, die sich ändern können, im Fabric und die Teile, die sich gesetzt haben, in fester Logik oder Software, sodass die Grenze bereits gezogen ist, wenn die Zeit kommt, auf einen günstigeren Baustein oder einen kundenspezifischen Chip zu migrieren. Das FPGA als dauerhafte Bleibe zu behandeln, ohne geplanten Ausstieg, ist die Art, wie ein Produkt am Ende für Rekonfigurierbarkeit bezahlt, die es vor Jahren nicht mehr genutzt hat.

Die Migration weg vom FPGA ist selten kostenlos, und sie gehört von Beginn an in die Rechnung. Ein bewährtes Design auf einen festen Beschleuniger oder einen kundenspezifischen Chip zu überführen bedeutet, die Logik in einem neuen Ziel erneut zu verifizieren, und dieser Aufwand muss gegen die Einsparung pro Stück gerechnet werden, die er freisetzt. Die Teams, die am Ende vorn liegen, sind die, die sowohl die laufenden Kosten des Verbleibs auf programmierbarer Logik als auch die einmaligen Kosten des Verlassens eingerechnet haben, und die die Grenze zwischen den veränderlichen und den gesetzten Teilen des Designs früh genug gezogen haben, um den späteren Umstieg zu einer Portierung statt zu einem Neuanfang zu machen.

Was den Ausschlag gibt

Die erste Frage lautet, ob das Design wirklich rekonfigurierbare Hardware braucht oder ob es aus Gewohnheit zum FPGA gegriffen hat. Ein fester Beschleuniger oder eine NPU erledigt eine gesetzte Aufgabe bei geringerer Leistungsaufnahme und niedrigeren Kosten, und Inferenzaufgaben sind in der Regel gesetzt, bis sie das Serienvolumen erreichen.

Die Flexibilität trägt laufende Kosten, nicht nur Entwicklungskosten. Ein FPGA zieht mehr als ein fester Baustein, der dieselbe Arbeit leistet, und diese Lücke taucht auf jedem Stück über die gesamte Lebensdauer des Produkts auf, sodass die Option zur Rekonfiguration ihren Preis auf Hardware verdienen muss, die womöglich nie rekonfiguriert wird.

Tools und IP wiegen so schwer wie das Silizium. Das Fabric ist nur so nützlich wie die Fähigkeit des Teams, dafür zu entwickeln, und ein Design, das sich auf eine Synthese stützt, die niemand im Haus pflegen kann, ist ein Risiko im Kostüm eines Features.

Die Verfügbarkeit läuft hier lange, was in beide Richtungen schneidet. Diese Bausteine halten in der Regel lange Lebenszyklen, ein echter Vorteil für ein Produkt, das über Jahre ausgeliefert wird, während sie zugleich das Design für diese gesamte Spanne an die Toolchain und Lizenzierung eines einzigen Herstellers binden. Der Baustein, der passt, ist der, dessen Flexibilität das Design auch nutzen wird; für einen echten Bedarf gekauft ist er schwer zu ersetzen, und aus Bequemlichkeit gekauft ist er eine Steuer, die auf jeder Platine erhoben wird.

Zurück：Running a Model Directly on the Device with a Single MCU

Weiter：Pairing Compute with Memory That Keeps It Fed