KI Alltag - Diagramme, Wolfram Alpha und GPTs
In meinem letzten Beitrag habe ich ja über die manuelle Strukturierung und Sortierung von Chats zu Personas gesprochen. Das ist natürlich keine "High-Tech" Lösung, aber ein pragmatischer Weg mit aktuellen KIs zu arbeiten. Ich glaube aber, dass das bald gar nicht mehr notwendig sein wird, aber dazu gleich mehr...
Themenwechsel:
Ich mache seit ein paar Tagen einen kleinen Test mit meinen KIs. Der Test sieht wie folgt aus:
Ich präsentiere der KI ein Bild von einem Diagramm (Balken oder Kurvendiagramm) und bitte die KI dieses Diagramm zu analysieren und die Werte in einer Tabelle auszugeben.
Bilder aus denen die KIs Datenpunkte abschätzen sollen |
Die Anwendung dafür sind vielfältig:
- KI-Tutoren im Schulunterricht, die beim Verstehen von Diagrammen, Grafiken etc. unterstützen.
- Rekonstruktion von Daten im Arbeitsalltag (wenn der/die KollegIn, die Zugriff auf die Excel-Tabelle hat in Urlaub ist)
- Erklärung von Daten für Blinde oder Sehbehinderte
Ich wollte testen wie multimodaler KIs (Gemini, GPT3.5, CoPilot) das meistern.
Meine Prompts waren nach mehreren Stunden hin und her einigermaßen elaboriert - hier ein Beispiel mit CoPilot:
Du bist professioneller Datenanalyst und musst aus einem Bild die Werte eines Diagramms extrahieren. Es ist enorm wichtig, dass die Werte so exakt wie möglich rekonstruiert werden.
Gehe wie folgt vor:
1. Visuelle Überprüfung: Merke dir jedes Detail des Diagramms genau, also Achsen, Zahlen, Beschriftungen, Hilfslinien, Farben. Jedes Detail könnte wichtig sein.
2. Datenschätzung: Auf Grundlage dieser visuellen Prüfung gibst du eine Schätzung für die Daten ab.
3. Prüfung: nutze Hilfslinien, wenn vorhanden, und deine Visuelle Prüfung (1.) um deine erste Schätzung der Daten 2.) kritisch zu hinterfragen und zu prüfen. Beispiel: Du hast einem Datenpunkt A auf den Wert "5" geschätzt; einen weiteren Datenpunkt B auf den Wert "6". Datenpunkt B liegt jedoch niedriger als A; das bedeutet der Wert von B kann nicht höher sein als der von A.
4. Vergleich: Nutze Datenpunkte bei denen du absolut sicher bist, dass du sie richtig erkannt hast und extrapoliere daraus die Werte für die anderen Datenpunkte. Beispiel: der Datenpunkt direkt neben der Y-Achse ist am einfachsten zu messen, da er direkt neben der Skala auf der Achse liegt. Nutze auch hier dein Wissen aus 1., 2. und 3. Erstelle zum Schluss aus deiner Analyse eine Tabelle.
Ergebnis Gemini Advanced:
Antwort von Gemini Advanced auf Bild 2 |
- schätzte am schlechtesten und zeigte auch die deutlichste Streuung
- halluzinierte am meisten; bei anderen Diagrammen, die ich testete, erfand Gemini "Hintergrundgeschichten" zum Inhalt des Diagramms
Antwort von Copilot auf Bild 2 |
- schätzte ganz gut (insbesondere Apfel und Schokoriegel waren immer richtig)
- halluzinierte recht wenig, aber verbesserte sein Ergebnis nicht
GPT3.5 von OpenAI habe ich da noch nicht getestet, da die kostenlose Version nicht den Upload von Bildern erlaubt. Ich war erstmal enttäuscht, weil trotz langer Optimierung der Prompts die KIs keine besseren Ergebnisse erzielten. Wobei, wenn man bedenkt, wie KIs bis vor einem Jahr auf solche Anfragen reagiert haben, ist das echt Jammern auf sehr hohem Niveau.
Zusammenfassend ist mir den beiden kostenlos verfügbaren KIs von Google und Microsoft aufgefallen (unabhängig von den schlechten Schätzungen):
- sie bleiben fokussiert, und verlieren nicht nach 2-3 Prompts komplett das Ziel
- sie bleiben konsistent in ihren Antworten, was einerseits gut ist, weil das "Halluzinieren" nicht so stark ausfällt, andererseits ist es schlecht, weil ein falsch interpretierter Wert auch immer gleich falsch interpretiert wird, egal wie man promptet.
Übrigens: dieses Buch von Stephen Wolfram ist zu empfehlen. Er erklärt darin sehr gut, wie neuronale Netze und LLMs funktionieren.
Egal, ich habe natürlich sofort meinen Account bei OpenAI reaktiviert und GPT4 mit WolframAlpha verknüpft, um mit dieser KI das Experiment nochmal durchzuführen. Ich gab der KI die gleichen Diagramme, wie oben.
Antwort von GPT4 auf Bild1 |
- schätzte sehr gut
- halluzinierte sehr wenig, sehr fokussiert.
es ist nicht perfekt, aber GPT4 und WolframAlpha erkennt Diagramme korrekt, beschreibt sie richtig und gibt sehr gute Schätzungen ab!