Hallo! jetzt

Kostenloser Versand ab$200

InFortune Electronics | Weltweiter Distributor für elektronische Bauteile

Q: Warum verliert ein Modell nach einem Sensortausch, der auf dem Bildschirm gut aussah, an Genauigkeit?

Das Modell wurde auf ein bestimmtes Aussehen trainiert, und die Farbcharakteristik, das Rauschen, die Schärfe oder die Verzeichnung eines neuen Sensors verschiebt die Pixel von dem, was es gelernt hat. Das Bild kann für einen Menschen gut aussehen und trotzdem außerhalb der Trainingsverteilung des Modells liegen. Die Trainingsbedingungen reproduzieren oder das Modell auf der neuen Kamera neu trainieren.

Service-Hotline 00852-69118296

Startseite > Blogs

Den Bildsensor und die Optik für ein Vision-Modell wählen

6/8/2026 10:30:00 AM

Ein Vision-Modell sieht nur das, was Sensor und Objektiv ihm liefern; diese beiden Komponenten legen die Obergrenze fest, wie gut es jemals arbeiten kann. Sie werden für das Modell ausgewählt, das rohe Pixel verarbeitet, und das Modell legt Wert auf andere Dinge als ein Mensch, der auf einen Bildschirm schaut. Stabile Geometrie, das richtige Licht auf dem Objekt und genügend Detail zur Erkennung sind die Faktoren, die seine Genauigkeit bestimmen. Eine angenehme Farbbalance oder ein weicher Hintergrund, also Eigenschaften, auf die eine Kamera optimiert wird, bringen ihm wenig.

Die Arbeit gliedert sich in eine Handvoll Fragen. Welche Sensorkennwerte sich auf die Qualität der Modellergebnisse auswirken. Ob der Verschluss die Bewegung in der Szene einfrieren kann. Wie die Szene beleuchtet wird, wenn kein Tageslicht vorhanden ist. Ob das Modell Tiefe zusätzlich zur Farbe benötigt. Wie stark das Objektiv die Geometrie verbiegt, auf der das Modell trainiert wurde. Und ob die Pixel den Beschleuniger überhaupt schnell genug erreichen können. Jede dieser Fragen wird am Sensor und am Objektiv entschieden, lange bevor das Modell läuft.

Was das Modell vom Sensor benötigt

Eine Kamera für Menschen wird danach beurteilt, wie das Bild aussieht. Ein Sensor für ein Modell wird danach beurteilt, wie viel nutzbares Signal er auf dem Objekt erzeugt, das das Modell erkennen muss. Die beiden Ziele überschneiden sich weniger als es scheint. Ein Kamera-ISP glättet Rauschen, schärft Kanten und verschiebt Farben, um das Auge zu erfreuen, und jeder dieser Schritte verändert die Pixel, auf die das Modell trainiert wurde.

Die erste Entscheidung betrifft also, was das Modell konsumiert. Manche Modelle verarbeiten den rohen Sensorausgang. Manche nehmen einen leicht verarbeiteten Datenstrom. Manche wurden auf Bildern einer bestimmten Kamera trainiert und erwarten stillschweigend den Charakter dieser Kamera. Zu wissen, welcher Fall vorliegt, entscheidet darüber, wie viel der Kameraverarbeitungskette beibehalten und wie viel abgeschaltet wird; diese Entscheidung prägt jeden nachgelagerten Kennwert.

Der Sensor kommt auch in einer von zwei Formen, und diese Wahl begleitet alle anderen. Ein fertiges Kameramodul bündelt Sensor, Objektiv und oft einen ISP auf einer kleinen Platine, die einfach angesteckt wird; das bringt ein Design schnell zum Laufen und klärt die Optik. Ein Sensor auf Platinenebene, der auf der Hauptplatine platziert wird, erfordert mehr Entwicklungsaufwand und gibt dafür Kontrolle über die Objektivhalterung, die Schnittstelle und die Stückliste zurück. Ein Modul eignet sich für einen Prototyp oder ein kleineres Volumen; ein blanker Sensor zahlt sich bei größeren Stückzahlen oder dann aus, wenn die Optik sehr präzise sein muss.

Welche Kennwerte die Modellgenauigkeit beeinflussen

Kameramodul und Bildsensor auf einer Leiterplatte — Ein Kameramodul und sein Sensor, der Teil, den die Kennwerte beschreiben.

Das Sensordatenblatt listet Dutzende von Zahlen auf, und einige davon entscheiden darüber, ob das Modell das Objekt überhaupt sehen kann. Die Auflösung bestimmt, wie viele Pixel im Arbeitsabstand auf das Ziel treffen, was festlegt, ob ein kleines oder weit entferntes Objekt genug Detail zur Klassifikation aufweist. Der Dynamikumfang bestimmt, ob der Sensor sowohl ein helles Fenster als auch ein dunkles Rauminneres in einem einzigen Bild halten kann, ohne das eine in Weiß oder das andere in Schwarz zu verlieren. Empfindlichkeit und Rauschen bestimmen, wie viel echtes Signal bei schwachem Licht erhalten bleibt, wo ein verrauschtes Bild die Merkmale vergraben kann, auf die das Modell angewiesen ist.

Zwischen diesen Kennwerten abzuwägen ist die Aufgabe beim Lesen, welche Bildsensorkennwerte für ein Vision-Modell relevant sind, und sie beginnt bei der Szene, nicht beim Datenblatt. Ein Modell, das Teile auf einem hellen Förderband zählt, benötigt Auflösung und Geschwindigkeit und kann beim Dynamikumfang sparen. Ein Modell, das eine Türöffnung vom Innenschatten bis zum Sonnenlicht im Freien beobachtet, steht und fällt mit dem Dynamikumfang. Der Kennwert, der zählt, ist der, den die Szene am stärksten beansprucht; die anderen können für Kostenersparnis, kleinere Bauform oder höhere Bildrate geopfert werden.

Der Dynamikumfang verdient eine eigene Betrachtung, denn die Szenen, an denen ein Modell scheitert, sind oft die kontrastreichen. Eine Kamera an einer Laderampe, ein Fahrzeug, das einen Tunnel verlässt, oder ein Gesicht vor einem hellen Fenster bringt tiefen Schatten und helle Lichter in einem Bild zusammen, und ein Sensor mit geringem Dynamikumfang clippt eines davon zu reinem Weiß oder reinem Schwarz und verliert das Objekt dabei. Manche Sensoren bieten einen HDR-Modus, der Belichtungen zusammenführt, um beide Enden zu halten, zum Preis von Bewegungsartefakten, die das Modell tolerieren muss. Der Kontrast der Szene im ungünstigsten Fall legt fest, wie viel Dynamikumfang der Sensor haben muss.

Die Pixelgröße ist der stille Faktor. Ein größeres Pixel sammelt mehr Licht und liefert ein saubereres Signal, was bei schwachem Licht hilft, auf Kosten eines größeren Sensors und eines größeren Objektivs. Ein kleineres Pixel packt mehr Auflösung in dieselbe Fläche und kostet weniger, gibt diesen Vorteil aber als Rauschen zurück, wenn das Licht nachlässt. Die Wahl ist ein Kompromiss, der gegen die dunkelste Szene abgewogen wird, in der das Modell arbeiten muss.

Bildrate und Belichtungszeit stehen in einem Spannungsverhältnis, sobald sich die Szene bewegt. Eine kurze Belichtung friert ein bewegtes Objekt ein, entzieht dem Sensor aber Licht. Eine lange Belichtung sammelt Licht und verwischt die Bewegung. Beide werden gemeinsam gegen die Bewegungsgeschwindigkeit der Szene und die verfügbare Lichtmenge eingestellt; ein Modell, das schnelle Bewegungen in einer dunklen Szene lesen muss, verlangt vom Sensor zwei Dinge, die sich widersprechen. Der Ausweg ist mehr Licht oder ein empfindlicherer Sensor, da keines der beiden Anforderungen per Firmware erfüllt werden kann.

Farbe ist nicht immer der Kanal, den das Modell benötigt. Ein Monochrom-Sensor lässt das Farbfilterarray weg, das über den Pixeln eines Farbsensors sitzt, und sammelt dadurch mehr Licht und löst bei gleicher Pixelzahl feinere Details auf. Das hilft einem Modell, das Form, Kanten oder Text liest und aus dem Farbton keinen Nutzen zieht. Ein Farbsensor verdient seinen Platz, wenn die Aufgabe stark auf Farbe beruht, etwa beim Lesen einer Statusleuchte oder beim Sortieren von Früchten. Wo Farbe nichts beiträgt, liefert ein Monochrom-Sensor dem Modell mehr Detail und mehr Licht zum gleichen Preis.

Bewegung einfrieren: Global Shutter gegen Rolling Shutter

Viele kostengünstige Sensoren verwenden einen Rolling Shutter (Zeilenverschluss), der das Bild zeilenweise ausliest, anstatt den gesamten Frame in einem Augenblick aufzunehmen. Bei einer ruhenden Szene ändert das nichts. Bei einem bewegten Objekt schon, weil der obere Teil des Objekts einige Millisekunden früher erfasst wird als der untere, und ein schnelles Objekt verzerrt oder verwischt erscheint.

Was das für die Erkennung bedeutet, ist Gegenstand von wie ein Rolling Shutter ein schnell bewegtes Objekt für ein Vision-Modell verschmiert. Ein Modell, das auf saubere Formen trainiert wurde, kann eine verzerrte Form übersehen, und ein System, das Positionen misst, liest diese an falscher Stelle. Ein Global Shutter erfasst jeden Pixel gleichzeitig und beseitigt diesen Effekt, zu einem höheren Preis und in der Regel mit geringerer Auflösung für das gleiche Budget. Die Entscheidung hängt davon ab, wie schnell sich Objekte durch das Bild bewegen und wie stark das Modell auf ihre wahre Form angewiesen ist.

Die relevante Geschwindigkeit ist die Bewegung über das Bild, nicht die Eigengeschwindigkeit des Objekts. Ein schnelles Objekt weit entfernt, das das Bild langsam überquert, kann bei einem Rolling Shutter problemlos erfasst werden. Ein langsames Objekt in der Nähe, das schnell über das Bild huscht, hingegen nicht. Die zu schätzende Größe ist, wie viele Pixel das Objekt während der Auslesezeit eines Frames zurücklegt.

Eine Szene ausleuchten, die das Modell lesen muss

Ein Modell kann nur mit dem Licht arbeiten, das den Sensor erreicht, und viele Machine-Vision-Szenen haben kein Tageslicht zur Verfügung. Die Lösung besteht darin, das Licht bereitzustellen, und zwar oft in einer Wellenlänge, die Menschen nicht wahrnehmen können.

Was das bringt, wird in was Infrarotbeleuchtung für Nachtsicht-KI leistet behandelt. Ein Nah-Infrarot-Strahler beleuchtet die Szene für den Sensor, bleibt aber für das Auge unsichtbar; das eignet sich für eine Kamera, die einen Raum nachts oder das Gesicht eines Fahrers ohne sichtbare Blendung beobachten muss. Das stellt zwei Anforderungen an den Sensor: echte Empfindlichkeit bei der Wellenlänge des Strahlers, da Silizium mit steigender Wellenlänge weniger reagiert, und ein IR-Sperrfilter, der aus dem Strahlengang bewegt werden kann, weil der Filter, der bei Tageslicht für korrekten Farbwiedergabe sorgt, auch das hinzugefügte Licht blockiert. Ein als Nachtmodus bezeichneter Sensor ist so gebaut, dass er diesen Filter umschalten und das Nah-Infrarot-Band auslesen kann.

Sichtbares Licht behält seinen Platz, wo es die Szene erlaubt. Eine kontrollierte sichtbare Leuchte, ringförmig oder schräg gestellt, um Schatten zu vermeiden, kann die Arbeit des Modells erheblich erleichtern als Raumlicht es täte, und kostet weniger als eine Infrarotlösung. Das Licht wird für die Szene gewählt, die das Modell liest: gleichmäßig und gezielt, nicht dem überlassen, was der Raum zufällig bietet. Wo Menschen den Raum mitnutzen und Blendung ein Problem ist, gewinnt der Infrarotweg; wo die Szene geschlossen ist, reicht oft eine gut ausgerichtete sichtbare Leuchte.

Wenn Farbe nicht ausreicht und Tiefe gefragt ist

Manche Aufgaben können von einem flachen Bild überhaupt nicht gelöst werden. Ein echtes Gesicht von einem Foto davon zu unterscheiden, zu messen, wie weit ein Palette entfernt ist, oder einem Roboter das Greifen eines Teils aus einer Kiste zu ermöglichen, erfordert Kenntnisse über Abstände, und eine Farbkamera liefert diese nicht.

Diesen Kanal hinzuzufügen ist Gegenstand von Tiefe aus einem Time-of-Flight-Sensor für Vision-KI gewinnen. Ein Time-of-Flight-Sensor (Laufzeitsensor) misst, wie lange Licht benötigt, um von jedem Punkt zurückzukehren, und wandelt das in einen pixelweisen Abstand um, was dem Modell neben oder anstelle von Farbe eine Tiefenkarte liefert. Er hat eigene Einschränkungen: einen kürzeren Messbereich, Schwierigkeiten mit glänzenden oder dunklen Oberflächen, die wenig Licht zurückwerfen, und eine Auflösung weit unter der eines Farbsensors, sodass er tendenziell neben einer Farbkamera sitzt und diese nicht ersetzt. Ihn hinzuzufügen hängt davon ab, ob die Aufgabe im Kern um Abstand und Form geht, wo ein flaches Bild nicht helfen kann.

Time-of-Flight ist ein Weg zur Tiefe, aber nicht der einzige. Ein Stereopaar berechnet den Abstand aus der Verschiebung zwischen zwei Ansichten; das funktioniert bei Tageslicht, wo Time-of-Flight auswaschen kann, zum Preis von zwei Kameras, einer festen Basis zwischen ihnen und dem Rechenaufwand für den Bildabgleich. Strukturiertes Licht projiziert ein bekanntes Muster und liest ab, wie es sich verformt; das ist auf kurze Abstände und in Innenräumen stark. Welche Methode passt, hängt vom Messbereich, den Lichtverhältnissen und dem verfügbaren Rechenaufwand und Platz auf der Platine ab.

Das Objektiv und die Geometrie, der das Modell vertraut

Ein Kameraobjektiv von vorn — Ein Kameraobjektiv, die Optik, die die Szene auf den Sensor abbildet.

Das Objektiv ist die Hälfte des Bildgebungssystems und bekommt einen Bruchteil der Aufmerksamkeit. Es bestimmt, wie viel von der Szene der Sensor sieht, wie scharf das Objekt über das gesamte Bild ist, und wie genau die Geometrie vom Zentrum bis zum Rand erhalten bleibt. Ein Modell liest alle drei Aspekte, und der letzte überrascht Teams immer wieder.

Ein Weitwinkelobjektiv zeigt mehr von der Szene und biegt gerade Linien am Rand in Kurven, eine Tonnenverzeichnung, die mit dem Sichtfeld wächst. Ein Mensch liest eine leicht gekrümmte Türöffnung ohne Probleme. Ein Modell, das Objektformen auf einem annähernd verzeichnungsfreien Objektiv gelernt hat, kann an der verzerrten Version stolpern, und ein System, das Größe oder Position aus dem Bild misst, liest falsche Werte, wo die Verzeichnung am stärksten ist. Wie sich das auswirkt, ist Gegenstand von wie Objektivverzeichnung ein Vision-Modell beeinträchtigt. Die Verzeichnung kann einmalig gemessen und softwareseitig korrigiert werden, zum Preis einiger Randpixel und etwas Rechenaufwand pro Frame, oder sie kann durch Wahl eines längeren Objektivs mit schmalem Sichtfeld innerhalb der Toleranz des Modells gehalten werden. Das Objektiv muss auch das auflösen, was der Sensor erfassen kann: ein scharfer Sensor hinter einem weichen Objektiv verschwendet die Auflösung, für die er bezahlt wurde; beide werden zusammen spezifiziert, sonst gewinnt das günstigere Bauteil und verschwendet das andere.

Der Fokus ist der Teil, der im Feld vergessen wird. Ein festgestelltes Objektiv, das auf eine bestimmte Entfernung eingestellt ist, stellt Objekte deutlich näher oder weiter unscharf, und ein Modell, das ein unscharfes Objekt bekommt, verliert das Detail, das es benötigt. Die Schärfentiefe, also der Entfernungsbereich, der noch akzeptabel scharf bleibt, wird durch Objektiv und Licht festgelegt und muss die Abstände abdecken, bei denen das Objekt erscheinen wird.

Die Blende bestimmt, wie viel Licht das Objektiv durchlässt, und ein Modell in einer dunklen Szene benötigt ein lichtstarkes Objektiv mit großer Öffnung. Der Preis einer großen Blende ist eine geringere Schärfentiefe, die gegen den Fokusabstand abgewogen werden muss, damit das Objekt scharf bleibt. Ein lichtärmeres Objektiv hält mehr der Szene im Fokus und benötigt dafür mehr Licht. Die Blende wird am gleichen Lichtbudget wie der Sensor gewählt, da ein empfindlicher Sensor hinter einem lichtarmen Objektiv im Dunkeln trotzdem lichthungrig ist.

Schärfe hat eine Kennzahl dahinter: die Modulationsübertragungsfunktion (MTF), die angibt, wie viel Kontrast das Objektiv bei feinen Details über das gesamte Bild hinweg erhält. Ein Objektiv kann in der Mitte scharf aussehen und zu den Rändern hin abfallen, wo ein Modell, das das gesamte Bild beobachtet, trotzdem arbeiten muss. Das Objektiv gegen die Pixelteilung des Sensors zu prüfen und dabei das gesamte Bildfeld statt nur die Mitte zu betrachten, ist das, was verhindert, dass ein scharfer Sensor hinter einem Objektiv sitzt, das ihn nicht ausreichend versorgen kann.

Die Verarbeitungskette zwischen Sensor und Modell

Zwischen dem Sensor und dem Modell liegt die Bildverarbeitungskette, die Abfolge, die rohe Sensorwerte in das Bild umwandelt, das das Modell erhält. Bei einer Konsumentenkamera ist diese Kette darauf abgestimmt, das Auge zu erfreuen. Sie demosaiziert die Farbe, entfernt Rauschen, schärft Kanten, bildet Töne ab und gleicht den Weißpunkt ab, wobei jeder Schritt davon geprägt ist, was auf einem Bildschirm gut aussieht. Ein Modell hat nicht auf das gelernt, was gut aussieht. Es hat auf der Verarbeitungskette gelernt, die seine Trainingsbilder erzeugt hat, und jeder Schritt, der bei der Inferenz abweicht, verschiebt die Pixel weg von dieser Grundlage.

Die erste Entscheidung ist daher, wie viel der Kette beibehalten werden soll. Ein Modell, das auf rohen oder leicht verarbeiteten Frames trainiert wurde, wird besser, wenn es dasselbe bekommt, mit den aufwendigen kosmetischen Schritten abgeschaltet, weil ein Schärfefilter Kanten erfindet, die nie in der Szene waren, und ein Rauschunterdrücker die feinen Texturen auslöscht, auf die ein Modell angewiesen ist. Ein Modell, das auf einer vollständigen Kameraverarbeitungskette trainiert wurde, benötigt diese selbe Kette bei der Inferenz. Die Verarbeitung wird auf das Training abgestimmt, und die Vorschau auf einem Entwicklungsbildschirm ist der falsche Maßstab zum Einstellen.

Automatische Funktionen sind die stille Gefahr. Automatische Belichtung, automatischer Weißabgleich und automatische Verstärkung verschieben das Bild von Frame zu Frame, wenn sich die Szene verändert, sodass dasselbe Objekt das Modell von einer Sekunde zur nächsten anders aussehend erreichen kann, und das Modell interpretiert diese Verschiebung als Änderung des Objekts selbst. Diese Funktionen zu sperren oder sie einpendeln zu lassen und dann festzuhalten, liefert dem Modell eine stabile Eingabe, zum Preis einer engeren Bandbreite an Szenen pro Einstellung.

Die Verarbeitungskette entscheidet auch, wo die Arbeit stattfindet. Ein Sensor mit einem eingebauten ISP liefert einen fertigen Datenstrom und entlastet den Prozessor. Ein Rohsensor schiebt diese Verarbeitung auf den Host, der dafür Rechenaufwand und Energie aufwendet und dafür jeden Schritt unter der Kontrolle des Entwicklers behält. Was passt, hängt davon ab, wie weit die Verarbeitungskette verbogen werden muss, um dem zu entsprechen, was das Modell gelernt hat.

Das Bild bei der Inferenz an das Bild beim Training angleichen

Ein Vision-Modell lernt das Aussehen seiner Welt aus den Bildern, auf denen es trainiert wurde, und trägt stille Annahmen über Auflösung, Farbe, Schärfe, Dynamikumfang und Geometrie aus diesem Trainingssatz heraus. Die Genauigkeit bleibt erhalten, wenn die Bilder, die es im Feld sieht, diesen Annahmen entsprechen, und sie sinkt, wenn sie abweichen, oft ohne jede Fehlermeldung. Das ist der Fehler, der sich hinter einem Sensortausch verbirgt, der auf dem Bildschirm harmlos aussah. Ein Modell, das auf Aufnahmen einer Kamera trainiert wurde und dann auf einem günstigeren Sensor mit anderer Farbcharakteristik und stärkerem Rauschprofil läuft, liefert weiterhin selbstsichere Antworten, die stillschweigend häufiger falsch sind, weil die Pixel nicht mehr dort sitzen, wo die Trainings-Pixel saßen. Dieselbe Abweichung entsteht durch einen ISP, der anders schärft, ein Objektiv mit mehr Verzeichnung, einen Frame, der durch einen anderen Algorithmus skaliert wird, oder eine Belichtung, die Lichter clippot, die die Trainingsdaten erhalten haben. Nichts davon zeigt sich als Absturz. Es zeigt sich als schleichender Genauigkeitsverlust, der dem Modell angelastet wird, obwohl die Ursache die Pixel sind, die es versorgen. Der Ausweg besteht darin, die Aufnahmebedingungen, unter denen das Modell trainiert wurde, festzulegen und sie bei der Inferenz zu reproduzieren: Auflösung und Zuschnitt, Farb- und Weißabgleichbehandlung, Verzeichnungskorrektur und Belichtungsverhalten, sodass Sensor, Objektiv und Verarbeitungskette am Produktende ein Bild liefern, das das Modell als sein eigenes erkennt. Wenn die Kamera spät im Projekt gewechselt werden muss, ist der sicherere Weg, das Modell auf Bildern der neuen Kamera neu zu trainieren oder feiner einzustellen, anstatt zu hoffen, dass das Modell generalisiert, weil ein Modell, das den Charakter des neuen Sensors nie gesehen hat, keinen Grund hat, ihn gut zu verarbeiten.

Es gibt eine einfache Prüfung, die diese Abweichung erkennt, bevor sie ausgeliefert wird. Eine kleine Menge Bilder von der Produktionskamera und ihrer Verarbeitungskette sammeln, das Modell darauf laufen lassen und die Genauigkeit mit dem Trainings-Benchmark vergleichen. Eine Lücke dort zeigt den Bildgebungsunterschied, solange er noch in der Optik, der Verarbeitungskette oder einer Runde Feinabstimmung behoben werden kann. Die Prüfung wegzulassen ist der Weg, auf dem der Unterschied das Feld als schleichender Genauigkeitsverlust erreicht, den kein Test markiert hat.

Die Abhilfemaßnahmen, wenn die Prüfung scheitert, sind gewöhnliche Ingenieursarbeit. Die Objektivverzeichnung einmalig kartieren und die Korrektur im Feld anwenden. Auflösung, Zuschnitt und Farbbehandlung auf das festlegen, was der Trainingssatz verwendet hat. Die Belichtung dort halten, wo die Trainingsbilder lagen. Nichts davon ist exotisch, und alles muss auf der gleichen Hardware abgestimmt werden, mit der das Produkt ausgeliefert wird; das ist der Grund, warum Sensor und Objektiv gemeinsam mit dem Modell gewählt werden.

Deshalb können Sensor und Objektiv nicht unabhängig vom Modell gewählt werden. Die beiden Enden bilden ein System.

Pixel zum Beschleuniger bringen

Ein Sensor, der ein sauberes Bild aufnimmt, ist nutzlos, wenn die Pixel den Beschleuniger nicht rechtzeitig erreichen. Ein hochauflösender Datenstrom bei hoher Bildrate ist ein großer Datenfluss pro Sekunde, und die Verbindung vom Sensor zum Prozessor muss ihn transportieren, ohne Frames zu verlieren oder Latenz hinzuzufügen, die die Anwendung nicht tolerieren kann.

Diese Verbindung ist Gegenstand von dem Bandbreitenengpass beim Einspeisen von Kameradaten in einen Beschleuniger. Viele Sensoren senden ihre Daten über eine MIPI-CSI-Schnittstelle, deren Spuranzahl und Geschwindigkeit die übertragbaren Pixel pro Sekunde begrenzen, und der Prozessor auf der anderen Seite muss einen Kameraeingang haben, der dazu passt. Wenn der Rohdatenstrom größer ist, als die Verbindung oder der Beschleuniger aufnehmen kann, muss vorgelagert etwas nachgeben: eine geringere Auflösung, eine niedrigere Bildrate, ein auf dem Sensor zugeschnittener Bildausschnitt oder eine Komprimierung, die das Modell tolerieren muss. Den Sensor zu wählen, ohne zu prüfen, ob der gewählte Prozessor seinen vollen Datenstrom aufnehmen kann, ist der Weg, auf dem ein Design einen guten Sensor bei einem Bruchteil seiner möglichen Bildrate betreibt.

Komprimierung ist das Druckventil, wenn der Rohdatenstrom die Verbindung nicht passieren kann. Ein Sensor oder ISP kann einen komprimierten Datenstrom liefern, der eine schmalere Verbindung überquert, und das Modell arbeitet mit dem dekomprimierten Ergebnis, das nicht mehr Bit für Bit dem entspricht, was der Sensor gesehen hat. Leichte Komprimierung fällt einem Modell nicht auf. Starke Komprimierung verwischt feine Details und erzeugt blockartige Artefakte, an denen ein Modell, das auf sauberen Frames trainiert wurde, scheitern kann; sie wird daher auf das beschränkt, was das Modell toleriert, und auf realen Frames geprüft.

Latenz begleitet die Bandbreite. Ein Modell, das reagieren muss, auf einem Roboter oder einem Fahrzeug, kümmert sich nicht nur darum, ob der Frame ankommt, sondern auch, wie schnell nach dem Ereignis er ankommt, und ein Puffer, der tief genug ist, um den Bandbreitenstrom zu glätten, fügt eine Verzögerung hinzu, die der Regelkreis spürt. Das Budget ist Frames pro Sekunde und Millisekunden Verzögerung zusammen, festgelegt über Sensor, Verbindung und Beschleuniger als einen einzigen Pfad.

Fragen bei der Sensorauswahl für Vision-Anwendungen

Macht ein Sensor mit mehr Megapixeln ein Vision-Modell genauer?

Nur bis zu dem Detail, das das Modell am Objekt benötigt. Darüber hinaus fügen mehr Megapixel Daten hinzu, die bewegt und verarbeitet werden müssen, ohne nutzbares Signal hinzuzufügen; sie können die Bildrate senken und das Rauschen pro Pixel erhöhen. Das nützliche Maß ist, wie viele Pixel im Arbeitsabstand auf das Ziel treffen, nicht die Gesamtzahl.

Wann rechtfertigt ein Global Shutter seine Mehrkosten?

Wenn Objekte während einer Auslesezeit genug Pixel über das Bild bewegen, um ihre Form zu verzerren oder zu verwischen, und das Modell oder die Messung auf die wahre Form angewiesen ist. Langsame Szenen und Szenen, in denen Bewegung wenige Pixel pro Frame überquert, können einen Rolling Shutter verwenden und die geringeren Kosten beibehalten.

Warum verliert ein Modell nach einem Sensortausch, der auf dem Bildschirm gut aussah, an Genauigkeit?

Weil das Modell auf ein bestimmtes Aussehen trainiert wurde und die Farbcharakteristik, das Rauschen, die Schärfe oder die Verzeichnung eines neuen Sensors die Pixel von dem entfernt, was es gelernt hat. Das Bild kann für einen Menschen gut aussehen und trotzdem außerhalb der Trainingsverteilung des Modells liegen. Die Trainingsbedingungen reproduzieren oder das Modell auf der neuen Kamera neu trainieren.

Benötige ich einen Tiefensensor, oder reicht eine Farbkamera?

Eine Farbkamera reicht aus, wenn die Aufgabe aus dem Erscheinungsbild gelöst werden kann. Ein Tiefensensor verdient seinen Platz, wenn die Aufgabe im Kern um Abstand oder dreidimensionale Form geht, etwa Anti-Spoofing, Volumenmessung oder ein Roboter, der aus einer Kiste greift, wo ein flaches Bild keine Antwort liefern kann.

Wie stark wirkt sich Objektivverzeichnung auf ein Modell aus?

Sie wirkt sich aus, wenn das Modell wahre Form lesen oder Größe und Position messen muss, da ein Weitwinkelobjektiv die Geometrie am Rand am stärksten biegt. Sie kann softwareseitig korrigiert oder durch ein längeres Objektiv gering gehalten werden. Ein Modell, das auf der gleichen Verzeichnung trainiert wurde, die es im Feld sieht, toleriert mehr davon.

Was entscheidet, ob der Prozessor mit dem Sensor mithalten kann?

Die Kameraschnittstelle, in der Regel MIPI CSI, mit ihrer Spuranzahl und Geschwindigkeit, gegen die Pixel pro Sekunde des Sensors bei der gewählten Auflösung und Bildrate. Wenn der Rohdatenstrom größer ist als die Verbindung oder der Beschleunigereingang, müssen Auflösung, Rate oder Bildausschnitt reduziert werden; Sensor und Prozessor werden daher als Paar aufeinander abgestimmt.

Sensor und Optik in der richtigen Reihenfolge wählen

Die Reihenfolge verhindert, dass die Entscheidungen sich gegenseitig behindern. Von der Szene und dem Modell ausgehen: was das Objekt ist, wie weit und wie schnell es sich bewegt, wie die Szene beleuchtet ist und was das Modell zu sehen gelernt hat. Das legt die relevanten Kennwerte fest: die Auflösung auf dem Ziel, den Dynamikumfang, den Verschluss und die Lichtwellenlänge. Das Objektiv passend dazu wählen, für Sichtfeld, Schärfe und eine Verzeichnung, mit der das Modell leben kann. Dann die Tiefenfrage prüfen und sicherstellen, dass der Prozessor den Datenstrom bei der benötigten Rate und Latenz aufnehmen kann.

Der rote Faden durch alles ist, dass Sensor und Objektiv für das gewählt werden, was das Modell benötigt, und das Bild am Produktende dem Bild entsprechen muss, auf dem das Modell gelernt hat. Das richtig hinzubekommen und das Modell funktioniert am schwierigsten Tag, den die Szene bietet. Das falsch zu machen und dem Modell wird eine Antwort angelastet, die die Pixel ihm nie ermöglicht haben.