KI-Alltag - Vorsicht bei Text-Extraktion aus PDFs!

Texterkennung mit KI 

Hin und wieder benötigt man den Text aus einem PDF, das lediglich gescannt ist, also im Prinzip ein Bild ohne weitere Informationen. KI-Modelle schimpfen sich ja jetzt "multimodal", was läge näher als ihre Fähigkeiten zu testen?. 

Früher war OCR, glaube ich, auch nur in der Bezahlversion von Adobe Acrobat verfügbar. Seit wir LLMs haben, ist auch das ein Kinderspiel...

Aufsatz von GW Bessel, 1838 (Quelle)

Ich habe ja bereits über die Extraktion von Diagrammen aus Bildern berichtet (hier und hier) - ich möchte dieses Experiment dennoch in diesem Blog dokumentieren, weil es hier weniger um Interpretation von mathematischen Daten als um die exakte Replikation von Zeichen geht. 

Hier ist mein Prompt:

Das PDF enthält frei verfügbare wissenschaftliche Aufsätze aus der Zeitschrift "Astronomische Nachrichten" von 1838. Extrahiere den Text aus dem Aufsatz von Ritter Bessel über die Parallaxe von 61 Cygni (61. Stern im Sternbild Schwan). Sei exakt und neutral. Transkribiere den Text Wort für Wort. Ignoriere längere Tabellen.

Wichtig:

  • die KI sollte die Stelle des Aufsatzes selbstständig finden (keine exakten Seitenangaben vorgegeben)
  • die KI angewiesen Tabellen zu ignorieren.
  • Wert auf Exaktheit gelegt

Ich versuchte es mit dem CoPilot (Bezahlversion!) und brach nach mehreren Versuchen ab. Da man keine PDFs hochladen kann, muss man den CoPilot anweisen, die aktuelle Seite zu untersuchen. Dies schlug regelmäßig fehl und eine exakte Textextraktion führte CoPilot nicht durch, auch nach mehrmaligen Versuchen und präziseren Prompts.

Beim nächsten Versuch mit ChatGPT wurde es gruselig (ich nutze, aus Gründen, die kostenlose Version): hier hat er wiederholt und konsequent ab einem bestimmten Absatz halluziniert und Texte frei erfunden:

Text von ChatGPT: man beachte die
Abweichungen ab der zweiten Zeile
Original-Textausschnitt



Ich vermute, dass in den Metadaten des PDF fehlerhafte Texte hinterlegt sind...ich habe das aber nicht weiter nachgeforscht.
Daher habe ich die PDF als Bilddatei "gedruckt" und erneut in GPT4 geladen. 
Interessant war, dass der GPT4 hier meldete, dass er aus Bilddateien keine Texte extrahieren kann!

Also weiter mit der nächsten KI: Gemini 1.5 (hier wurde die Bilddatei verwendet):


Er hat die Überschrift nicht mit übersetzt, aber ich habe ihn ja auch angewiesen den "Text" zu übersetzen. Bei der Kontrolle des ersten Absatzes ist mir aufgefallen, dass er das "ß" immer als "fs" erkennt. Ein kurzer korrigierender Prompt, und er hat im gesamten Text das "ß" korrekt verwendet.

Was nicht so toll lief war, dass Gemini regelmäßig vergaß, was er vorher konnte bzw. gemacht hat, und einfach den "Dienst" verweigerte:


Meine Quick&Dirty Lösung war, dass ich Gemini den Text absatzweise transkribieren ließ und jedes mal bestärkte weiter zu machen: 

Sehr gut gemacht. Fahre genauso fort wie bisher. beginne beim nächsten Satz und transkribiere ihn.

Das war dann doch etwas mühseliger als ich gedacht hatte. Der Vorteil ist, dass man die einzeln transkribierten Texte nicht manuell zusammen kopieren muss, sondern einfach mit dem Prompt zusammenführen kann: 
Kopiere alle bisher Transkribierten Textteile in eine Antwort, sodass ich sie weiter verarbeiten kann.

Funfact des Tages

Das PDF das ich hier verwendete, beschreibt eine Arbeit von Friedrich Wilhelm Bessel. 1838 gelang ihm die erste präzise Messung der Parallaxe eines Sterns - 61 Cygni. Diese bahnbrechende Entdeckung bestätigte die heliozentrische Theorie und lieferte den ersten direkten Beweis für die immensen Entfernungen im Universum - 200 Jahre nachdem sie von Kepler und Galilei zum ersten Mal formuliert wurde. Obwohl Bessels Arbeit damals keinen unmittelbaren Alltagsbezug hatte, könnten wir heute ohne dieses Wissen keine geostationären Satelliten (kein GPS, keine Wetterdaten) in den Weltraum bringen oder mittels Spektroskopie Blutproben untersuchen.

Beliebte Posts aus diesem Blog

KI Alltag - Diagramme, Wolfram Alpha und GPTs

KI Alltag - So bringen Sie Ordnung in Ihre KI-Gespräche

KI-Alltag - NotebookLM Test