OCR und LLM: Das KI-Power-Duo

Im Rennen um die Einführung von KI lenkt "cool" oft von "profitabel" ab. Verschwenden Sie keine Zeit mit auffälligen Experimenten, Ihr Ziel sollte es sein, schnell einen Mehrwert zu schaffen. In diesem Leitfaden erfahren Sie, wie Sie ein möglichst schnelles und einfaches KI-Projekt starten können. Eines, das einen sofortigen ROI garantiert.

In der Fertigung, im Service oder im Lager verschwenden Teams oft Zeit damit, Daten von Typenschildern, Seriennummern oder Etiketten manuell einzugeben. Die manuelle Dateneingabe ist jedoch von Natur aus langsam und fehleranfällig. Benutzer mögen diese Aufgabe in der Regel nicht und vermeiden sie oft, wenn möglich. Wenn sie dazu verpflichtet werden, geben Benutzer möglicherweise falsche Daten oder Platzhalterdaten ein, nur um die Anforderung zu umgehen, was die Datenqualität erheblich beeinträchtigt.

Es gibt jedoch eine schnelle Lösung: Kombinieren Sie die optische Zeichenerkennung (OCR) mit einem LLM, und Sie erzielen sofortige Effizienzsteigerungen bei allen monotonen Aufgaben, die eine Dateneingabe erfordern. Sie benötigen lediglich ein Bild. Ihre Benutzer werden begeistert sein, Ihre Daten werden sauber sein und vor allem werden sie aufgrund des geringen Aufwands endlich in großem Umfang erfasst werden können.

Die schnelle Lösung

Der Ablauf ist einfach: Mit einer optischen Zeichenerkennungs-Engine wird der Text aus einem Foto extrahiert, anschließend wird dieser Text mit einem Large Language Model (LLM) analysiert und in strukturierte Daten umgewandelt. Diese Kombination ist leichtgewichtig, aber sehr leistungsstark. OCR basiert auf realen Daten (dem genauen Text auf dem Typenschild oder Etikett), und das LLM sorgt für die nötige Intelligenz, um diese Daten zuverlässig zu interpretieren. Im Gegensatz zu früheren Lösungen, die auf vorgefertigten Vorlagen basierten, ist das LLM intelligent genug, um unterschiedliche Layouts spontan zu verarbeiten. Sie erhalten saubere, nutzbare Daten ohne langen Entwicklungszyklus. Tatsächlich löst dieser Ansatz alle üblichen Probleme:

  • Keine Halluzinationen: Die KI erfindet nichts, sie arbeitet nur mit dem Text, der tatsächlich von einer OCR-Engine erkannt wurde. Durch die Verankerung oder Erdung des LLM an realem, aus OCR extrahiertem Text wird das Problem der Halluzinationen beseitigt. Das Modell erfindet keine Seriennummern oder Daten, die nicht vorhanden sind, sondern interpretiert lediglich das, was vorhanden ist.
  • Keine Schulung erforderlich: Diese Lösung ist sofort einsatzbereit. Die OCR ist bereits für das Lesen von Zeichen vorab trainiert, und das LLM versteht Sprache und Kontext. Sie müssen nicht Tausende von Beispielen sammeln oder monatelang ein benutzerdefiniertes Modell trainieren. Es sind keine speziellen KI-Kenntnisse erforderlich, um loszulegen.
  • Keine IT-Belastung: Der Einrichtungsaufwand ist minimal und die Integration erfolgt nahezu problemlos. Sie können dies ganz einfach in Ihren Workflow integrieren. Tatsächlich benötigen Sie nicht einmal IT-Support, um mit dem Testen zu beginnen. Sobald Sie einige Beispielbilder haben, können Sie den OCR+LLM-Prozess ausführen und sofort Ergebnisse sehen, ohne auf eine komplexe Integration warten zu müssen. Das bedeutet, dass es keine langen Warteschlangen im IT-Backlog gibt; Sie können selbst loslegen und die IT später hinzuziehen, wenn Sie bereit sind zu skalieren.

So funktioniert es

Es ist so einfach, wie es klingt. Ein Foto genügt. Ein Techniker macht mit einem Smartphone oder Tablet ein Foto von einem Typenschild oder Etikett, das war's. Es sind keine Vorlagen erforderlich, um den „richtigen“ Text zu erfassen, und es ist keine langwierige Einrichtung notwendig.

Hinter den Kulissen liest die OCR-Engine sofort den gesamten Text, den sie im Bild finden kann. Als Nächstes kommt das LLM ins Spiel: Es untersucht den Rohtext und ermittelt die Feldtypen und Beziehungen. Mit anderen Worten, es weiß beispielsweise, dass „CAT 3516“ eine Modellnummer, „2020“ das Jahr und „Seriennummer 123456“ eine Seriennummer ist. Die KI formatiert die Ausgabe dann entsprechend zu einer freien oder vordefinierten Antwort. Im Handumdrehen werden die Daten aus dem Bild erfasst und strukturiert, ohne dass menschliche Eingriffe oder Tippfehler erforderlich sind. Ein einzelnes Bild eines Typenschilds durchläuft diesen Prozess und wird zu nützlichen Daten, die sofort verwendet werden können. Bei Bedarf kann dies um die Geolokalisierung erweitert werden, an der die Erfassung stattgefunden hat. Dies funktioniert sofort und mit praktisch jeder Eingabe, egal ob es sich um ein gedrucktes Metallschild, die Markierungen auf der Seitenwand eines Reifens, einen VIN-Code auf einem Fahrzeug oder ein anderes gedrucktes/graviertes Textetikett handelt. Die Kombination aus OCR+LLM erledigt alles von Anfang bis Ende: Foto rein, strukturierte Daten raus.

Beispiele

Hier sind einige Szenarien, die die Leistungsfähigkeit dieser Kombination veranschaulichen: Durch die vorherige Festlegung der erforderlichen Ausgabemerkmale (z. B. Seriennummer, Typ, Baujahr, Fahrgestellnummer) können Sie sicherstellen, dass die strukturierte Ausgabe unabhängig von der Eingabe stets vorhersehbar und für die Integration in Ihre bestehenden Systeme bereit ist.

Bild Erkannter Text (OCR) Strukturierte Ausgabe (LLM)
Atlas Copco Luftkompressor 1614 8057 08 Atlas Copco LUFTKOMPRESSOR
Typ Seriennummer GA 250 W CE 0038
AIF.091185 Max. Betriebsdruck
8,50 bar (e) Eingangsleistung kW Drehzahl der Welle
U/min 252 1488 Herstellungsjahr
04 MADE IN BELGIUM

{
  "manufacturer": "Atlas Copco",
  "type": "GA 250 W",
  "serial_number": "AIF.091185",
  "max_pressure": "8.5 bar",
  "year": "2004"
}
        
Ford Motor Company GmbH ANTRIEBSBEDINGUNGEN MOTOR Ford A RW1 FORD MOTOR COMPANY LTD: SFACXXBJ2CE000003 1316 GETRIEBE GETRIEBE W 1316 ACHSE PT.AR. ME 1 1- 658 TRIM GARN. 2- 658 85 TYPE VERSION COLOUR / COULEUR KD SVC. REF Kg Kg Kg Kg

{
  "vin": "SFACXXBJ2CE000003"
}
        
Reifeninformationen DI NICHT AUF 16,5-ZOLL-FELGEN MONTIEREN. 215/60R16 95V

{
  "width": "215",
  "ratio": "60",
  "construction": "R",
  "rim_diameter": "16",
  "load": "95",
  "speed": "V"
}
        

Warum es anders ist

Dieser Ansatz ist nicht nur eine schrittweise Verbesserung, sondern eine grundlegende Abkehr von den herkömmlichen Methoden der Datenerfassung. Keine Vorlagen, keine benutzerdefinierte Programmierung, keine starren Regeln. Bei herkömmlichen OCR-Lösungen müssen Sie häufig für jeden neuen Dokumenttyp eine Vorlage oder einen Bereich definieren (z. B. „Feld X befindet sich in der oberen rechten Ecke von Formular Y“). Wenn etwas verschoben wurde oder ein neues Format erschien, funktionierte das System nicht mehr. 

In unserem Fall ist der LLM-basierte Parser layoutunabhängig. Es spielt keine Rolle, ob sich die Seriennummer oben, unten oder über zwei Zeilen verteilt befindet, die KI erkennt sie dennoch anhand des Kontexts. Sie sind nicht mehr an starre, vorgefertigte Feldsätze gebunden. Das System passt sich an noch nie dagewesene Plattenlayouts an. Dadurch ist es weitaus widerstandsfähiger gegenüber Abweichungen.

Ein weiterer wichtiger Unterschied ist, wie gut es mit realen Bedingungen zurechtkommt. Wir wissen, dass die Datenerfassung vor Ort nie in einer sauberen Laborumgebung stattfindet. Etiketten verschmutzen, Platten korrodieren, Stempel sind schwer zu lesen. Die neue Generation von OCR-Engines ist für raue Bedingungen ausgelegt. Sie kann Texte von praktisch jeder Oberfläche und unter allen Bedingungen präzise erfassen: rostige oder zerkratzte Metallplatten, eingravierte Seriennummern auf Metall, verblasste oder abgenutzte Aufkleber, sogar handschriftliche Einträge oder kontrastarme Gravuren. Gebogene oder schräge Oberflächen? Schlechte Beleuchtung? Kein Problem, dank fortschrittlicher Vorverarbeitung und dem Kontextverständnis der KI gelingt es ihr auch dort, wo andere scheitern würden. Kurz gesagt: Es gibt keine besonderen Anforderungen, keine Notwendigkeit, eine Aufnahme perfekt auszurichten oder eine bestimmte Vorlage zu verwenden. Was Ihre Augen sehen können, kann diese KI erfassen. Und ja, manchmal macht die OCR-Engine Fehler, eine 0 wird mit einem O verwechselt, ein rn mit einem m. Unserer Erfahrung nach treten diese Fehler jedoch seltener auf als Tippfehler von Menschen.

Was Sie erhalten

Was ist also das Endergebnis all dessen? Sie erhalten saubere, strukturierte Daten, die sofort einsatzbereit sind. Jedes Mal, wenn Sie eine Platte oder ein Etikett scannen, gibt das System die wichtigen Felder in einem übersichtlichen Paket zurück. Denken Sie an Dinge wie Seriennummern, Modell- oder Teilenummern, Herstellernamen, Daten, Spannungen, Kapazitäten, den gesamten Text auf dem Etikett, der nun in beschriftete Datenpunkte umgewandelt wurde. Die Ausgabe erfolgt in der Regel im JSON-Format (oder einem ähnlich strukturierten Format), wodurch sie sofort praktisch nutzbar ist. Mit anderen Worten: Die KI spuckt nicht einfach einen Textklumpen aus, sondern liefert Ihnen einen strukturierten Datensatz. Ein einzelnes Foto des Typenschilds einer Maschine könnte beispielsweise ein JSON-Objekt mit Schlüsseln für 

{   "manufacturer": "ABC Corp",   "model": "XYZ123",   "serial_number": "SN098765",   "year": "2020" }

Da die Daten bereits strukturiert sind, können Sie sie direkt in Ihre Systeme einspeisen. Die Integration ist kein Problem, Sie können diese Daten problemlos in Ihr CRM, ERP, Ihre Wartungsdatenbank oder jede andere Software übertragen. Es ist nicht erforderlich, dass jemand die Daten neu formatiert oder manuell eingibt. Im Wesentlichen haben Sie ein Foto in sofort verwertbare Daten umgewandelt. Das bedeutet schnellere Aktualisierungen, automatisierte Aufzeichnungen und die Möglichkeit, Prozesse (wie die Bestellung eines Ersatzteils oder die Planung eines Service) ohne manuelle Übertragung auszulösen. Alles wird in einem standardisierten, computerfreundlichen Format geliefert, das sich in Ihre bestehenden Arbeitsabläufe einfügt.

Pilot in Tagen

Einer der besten Aspekte dieser OCR+LLM-Lösung ist, wie schnell Sie sie ausprobieren und Ergebnisse sehen können. Dies ist kein sechsmonatiges IT-Projekt, Sie können innerhalb weniger Tage (oder sogar Stunden) einen Pilotversuch durchführen. So einfach geht's: Sammeln Sie eine Handvoll Musterplatten oder Etiketten (machen Sie einfach Fotos mit Ihrem Smartphone) und lassen Sie sie durch unser Demosystem laufen, das wir für Sie einrichten können. Sie erhalten sofort die extrahierten Daten. Messen Sie nun die Genauigkeit im Vergleich zur tatsächlichen Situation. Wie lange hat es im Vergleich zu einer manuellen Ausführung gedauert? Sie können einen Ihrer Servicetechniker einen direkten Vergleich durchführen lassen: Lassen Sie ihn in einer Schicht einige Artikel manuell eingeben und für dieselben Artikel das OCR+LLM-Tool verwenden. Vergleichen Sie die aufgewendete Zeit und die Fehlerquoten. Der Unterschied wird offensichtlich sein: Aufgaben, die früher Minuten pro Element gedauert haben, dauern jetzt nur noch Sekunden und es gibt weniger Fehler. Selbst wenn Sie nur 1-2 Minuten pro Identifizierungsaufgabe einsparen (was sehr konservativ geschätzt ist), ergibt sich bei Hunderten oder Tausenden von manuellen Eingabeaufgaben ein erheblicher ROI. Das Schöne daran ist, dass Sie fast sofort konkrete Zahlen erhalten: X Minuten pro Aufgabe eingespart, Y Fehler vermieden. Sie müssen nicht über den Wert spekulieren, sondern können ihn an einem einzigen Nachmittag demonstrieren.

Dies ist wohl das einfachste KI-Projekt mit dem geringsten Aufwand, das Sie umsetzen können, und dennoch liefert es messbare Ergebnisse in der Praxis. Keine komplexe Integration, keine lange Einarbeitungszeit – machen Sie einfach ein paar Fotos und sehen Sie zu, wie es funktioniert. Die Ergebnisse der Pilotphase sprechen praktisch für eine Ausweitung: Die Zeitersparnis und die verbesserte Genauigkeit führen direkt zu Kosteneinsparungen und einem besseren Service. Schnell zu implementieren, schnell wertvoll.

Beispiele, die zuvor unlösbar waren

Um dies zu veranschaulichen, hier einige Beispiele dafür, was dieser OCR+LLM-Ansatz leisten kann. Dinge, deren Automatisierung früher ein Albtraum war (oder schlichtweg unmöglich):

  • Typenschilder verschiedener Marken: In der Vergangenheit war das Parsen von Typenschildern verschiedener Hersteller eine unmögliche Aufgabe für die Automatisierung. Ein SIEMENS-Typenschild sieht ganz anders aus als ein KAESER-Typenschild. Jedes hatte sein eigenes Format, und keine einzelne Vorlage oder kein fest programmiertes Programm konnte diese Vielfalt bewältigen. Selbst Typenschilder derselben Marke haben sich im Laufe der Zeit verändert und weisen unterschiedliche Layouts auf. Heute kann eine einzige KI-Lösung Typenschilder aller Marken analysieren. Es spielt keine Rolle, ob das Layout unbekannt ist – das LLM versteht den Kontext und extrahiert die wichtigsten Felder. Sie können ihm das Schild jedes Herstellers vorlegen und erhalten eine strukturierte Ausgabe, ohne für jedes Schild individuelle Regeln festlegen zu müssen. Das bedeutet, dass ein einziges Tool Dutzende manueller Referenzhandbücher oder spezieller OCR-Einstellungen ersetzen kann.
  • Fahrzeugidentifikationsnummern (VIN) in jedem Format: Fahrzeugidentifikationsnummern (VIN) können auf Metall eingraviert, auf Aufklebern unter der Windschutzscheibe oder auf dem Fahrzeugschein aufgedruckt oder an schwer zugänglichen Stellen eingeprägt sein. Außerdem weisen sie unterschiedliche Muster auf (ältere Fahrzeuge hatten kürzere VIN, einige Geräte verwenden Seriennummern, die nicht genau 17 Zeichen lang sind, usw.). Bisher war für das zuverlässige Auslesen einer VIN oft spezielle Hardware oder einfach nur das bloße Auge erforderlich. Jetzt können Sie ein Foto von einer VIN machen, selbst wenn diese verblasst oder schräg ist, und die KI extrahieren lassen. Die OCR ist scharf genug, um die alphanumerische Zeichenfolge zu verarbeiten, und die LLM kann sie als VIN-Code erkennen und nicht etwa als zufällige Teilenummer. In vielen Fällen kann die KI sogar die VIN aufschlüsseln (Identifizierung des Herstellercodes, des Baujahres usw.), aber zumindest erhalten Sie die genaue VIN in einem verwendbaren Textformat. Unterschiedliche Formate oder Platzierungen stellen kein Problem mehr dar. Es handelt sich um eine Komplettlösung für die Extraktion von VIN-ähnlichen Codes, mit der herkömmliche Systeme große Schwierigkeiten hatten.
  • Spezifikationen für abgefahrene Reifen: Das Lesen der Spezifikationen auf der Seitenwand eines Reifens ist bekanntermaßen schwierig. Der Text besteht oft nur aus erhabener Gummi auf Gummi, ist kontrastarm, manchmal abgerieben oder teilweise abgenutzt. Für einen Menschen ist es mühsam, diese Zahlen und Buchstaben (Reifengröße, Lastindex, Geschwindigkeitsklasse usw.) auf einem alten Reifen zu identifizieren. Für eine klassische OCR ist dies ohne perfekte Beleuchtung und Reinigung fast unmöglich. Dieser neue Ansatz löst das Problem. Fortschrittliche Bildverarbeitung erhöht den Kontrast, und die Kombination aus OCR und LLM kann sogar schwarzen Text auf schwarzem Hintergrund auf einer gekrümmten, abgenutzten Reifenoberfläche entschlüsseln. So kann beispielsweise eine verschmierte Zeichenfolge wie „205/55 R16 91H“ auf einem verschmutzten Reifen erfolgreich als Größe und Bewertung interpretiert werden.

Dies sind nur einige wenige Szenarien, aber sie verdeutlichen ein Muster: Wiederkehrende, monotone Aufgaben, deren Automatisierung früher unmöglich oder unpraktisch war, sind nun leicht zu bewältigen. Durch die Kombination von OCR mit einem LLM haben wir die alten Hindernisse starrer Formate und schlechter Bildbedingungen beseitigt. Die Lösung passt sich Ihrer Realität an, anstatt Sie zu zwingen, Ihren Prozess an die Lösung anzupassen. Und all dies mit minimalem Implementierungsaufwand. Für After-Sales- und Service-Verantwortliche bedeutet dies, dass Sie endlich ein praktisches KI-Tool haben, das einen schnellen ROI liefert. Es handelt sich nicht um ein wissenschaftliches Projekt oder ein Zukunftsversprechen, sondern um ein Plug-and-Play-Upgrade für Ihren Workflow, das sich sofort auszahlt. Kurz gesagt: Es ist die einfachste und wirkungsvollste KI-Lösung, die Sie heute einsetzen können.

Ergebnisse entstehen nicht aus der Theorie, sondern aus Ratschlägen, die auf Ihren Kontext angewendet werden. Kontaktieren Sie uns, wenn Sie erfahren möchten, wo OCR+LLM Ihre Prozesse beschleunigen kann.

OCR und LLM: Das KI-Power-Duo
CTO und Mitbegründer
Markus Lukasson
Ingenieur mit Leib und Seele und einer tiefen Liebe zu Daten und Technologie.

Vereinbaren Sie eine Live-Demo, die auf Ihre Anforderungen und Daten zugeschnitten ist.

Erhalten Sie Antworten auf Ihre spezifischen Fragen und finden Sie heraus, warum nyris die richtige Wahl für Ihr Unternehmen ist.

Vielen Dank! Ihre Anfrage wurde erfolgreich übermittelt.
Einer unserer Mitarbeiter wird Sie in den nächsten 48 Stunden kontaktieren.
Huch! Beim Absenden des Formulars ist etwas schief gelaufen.
Vereinbaren Sie eine Live-Demo, die auf Ihre Anforderungen und Daten zugeschnitten ist.