Posts

Es werden Posts vom 2024 angezeigt.

KI-Alltag - NotebookLM Test

Bild
 NotebookLM - Googles KI-Notizbuch Es gibt mehr und mehr Tools gibt mit einem bestimmten Zweck, in denen eine KI im Hintergrund arbeitet. Das ist nicht wirklich neu (siehe Rechtschreibprüfung in Word, oder Übersetzung mit DeepL).  Ein neues Tool von Google macht das mit Gemini-KI und nennt sich  NotebookLM , das man derzeit als Google Pro-User testen kann.  Was ist anders/neu daran? Quellen importieren Ja, man kann mittlerweile mit jedem KI-Tool einzelne Bilder, PDFs usw hochladen und die KI damit agieren lassen - aber es sind halt nur einzelne Dateien. In Notebook kann man relativ schnell hunderte PDFs, Webseiten, Präsentationen (auch aus GoogleDrive) hochladen. Datenquellen in NotebookLM hochladen Wenn Quellen aus GoogleDrive hochgeladen werden, werden diese auch synchronisiert - das bedeutet, wenn die Datei im Drive aktualisiert wird, bekommt Notebook das mit. Jede Quelle wird von Notebook erstmal indexiert und zusammengefasst.  Zusammenfassung der Quelle Das alleine ist schon ein r

KI-Alltag - Vorsicht bei Text-Extraktion aus PDFs!

Bild
Texterkennung mit KI  Hin und wieder benötigt man den Text aus einem PDF, das lediglich gescannt ist, also im Prinzip ein Bild ohne weitere Informationen. KI-Modelle schimpfen sich ja jetzt "multimodal", was läge näher als ihre Fähigkeiten zu testen?.  Früher war OCR, glaube ich, auch nur in der Bezahlversion von Adobe Acrobat verfügbar. Seit wir LLMs haben, ist auch das ein Kinderspiel... Aufsatz von GW Bessel, 1838 ( Quelle ) Ich habe ja bereits über die Extraktion von Diagrammen aus Bildern berichtet ( hier  und hier ) - ich möchte dieses Experiment dennoch in diesem Blog dokumentieren, weil es hier weniger um Interpretation von mathematischen Daten als um die exakte Replikation von Zeichen geht.  Hier ist mein Prompt: Das PDF enthält frei verfügbare wissenschaftliche Aufsätze aus der Zeitschrift "Astronomische Nachrichten" von 1838. Extrahiere den Text aus dem Aufsatz von Ritter Bessel über die Parallaxe von 61 Cygni (61. Stern im Sternbild Schwan). Sei exakt un

KI-Alltag - Personas obsolet?

Bild
 Zweifel ist der Schlüssel zu Wissen Einer meiner ersten Posts war ein Tipp, Chats zu sortieren und in "Personas" zu verwandeln.  (Ordnung in KI-Gespräche bringen) Ich denke, dass diese Art der Chat-Organisation mittelfristig überflüssig wird. Lasst mich erklären... Erstellt mit Dalle-3 Ich hatte eine Konversation mit GPT4o via Sprache. Es ging um die Vorbereitung für einen wichtigen geschäftlichen Vortrag (dazu mehr in einem späteren Posting). Ich hatte keine Zeit mehr, die Konversation fort zu setzen, also habe ich den GPT gefragt, ob ich unsere Unterhaltung später wieder "aufrufen" und fortführen kann: Konversation mit GPT4o im Mai 2024 Hinweis: ich war noch im "Sprachmodus" und wunderte mich über diese Aussage des GPTs: to=bio Also fragte ich nach: Konversation mit GPT4o im Mai 2024 OK, wow! 😵 Wichtigste Anwendungsmöglichkeiten: Bessere Konversationen Bestimmte Stichworte und Hinweise für gezieltere Konversation. Spezifische Begriffe wie "Coach&q

KI-Alltag - Diagramme in Gemini - die Zweite!

Bild
In meinem  Posting von Mai 2024  habe ich Gemini und ChatGPT 3.5 + Wolfram getestet wie sie bei der Erkennung von Diagrammen aus Bilddateien abschneiden. Es war zwar beeindruckend, aber nicht sehr präzise. Gleicher Test, einen Monat später: Antwort von Gemini Advanced Exakt gleicher Prompt und gleiches Bild bei OpenAI hochgeladen: Antwort von ChatGPT4o Das ist schon echt beeindruckend! Beide LLMs treffen die Werte exakt! Natürlich nicht für jedes Diagramm, aber es ist kein Vergleich zu den Ergebnissen vor einem Monat. Wow! Halluzinationen bei Gemini Advanced Wenn ich im gleichen Chat mehrere unterschiedliche Diagramme analysieren wollte, halluzinierte Googles KI deutlich - die KI war auf das erste Bild "eingeschossen" und hat nicht erkannt, dass es eine komplett neue Analyse starten sollte. Wahrscheinlich hätte man das durch geschicktes Prompten umgehen können, aber ChatGTP hatte dieses Problem nicht... A propos Prompting... Der Prompt beschränkte sich dieses mal auf minimale

KI-Alltag - Bildbewertung mit Gemini optimieren

Bild
Es regnet und die Kids brauchen Beschäftigung - was liegt da näher als Pokémon-Karten zu sortieren?  Das Ziel war, den Tauschwert der doppelten Karten zu ermitteln, damit die Kids diese mit ihren Freunden gegen andere Karten tauschen können. Nun kann man natürlich jede Karte anhand der Seriennummer einzeln online suchen - das ist aber aufwändig, daher habe ich das mit einem Experiment mit der Gemini KI verbunden.  Das Set-up  Die Gemini-KI habe ich zunächst über einen einfachen Prompt über die Aufgabe informiert und habe sie selbst Vorschläge machen lassen, wie sie die Aufgabe am besten lösen könnte. Der Vorschlag eine Tabelle zu erstellen war gut, meine Vermutung war, dass die KI dann auch weniger halluziniert bzw. nachträglich Einträge ändert - was sich als richtig erwies. Wir haben mit der KI einen Eingabeprozess vereinbart in dem die Karteninformationen in die Tabelle übertragen werden: Gleichzeitig sollte die KI zu jeder Karte den aktuellen Handelswert online recherchieren und den

KI-Zukunft - Sind Webbrowser in fünf Jahren obsolet?

Bild
Neben der Action, dem schlagzeuglastigen Soundtrack und der grandiosen Schlussszene waren die coolsten Momente im ersten "Iron Man" die, in denen Tony Stark mit seinem KI-Helferlein YARVIS interagiert hat. Selten war Tony dabei selbst an der Tastatur  - er hat meistens Sprachbefehle gegeben. Die KI war mit jedem Computer in seiner Villa und auch in seinem Iron Man-Anzug vernetzt.  So weit wie in dem Film sind wir natürlich noch nicht, aber eine normale Internetrecherche bei der man mehrere Tabs offen hat und sich einige Web-Adressen in Word zwischenspeichert lässt sich heute schon komplett mit Sprachsteuerung über ChatGPT regeln. Daher meine These - Wir werden in fünf Jahren nicht mehr "browsen" oder sogar "googeln". Erstellt mit Dall.E 3 Argumente für das Ende vom klassischen "Browsen" 1. Sprachinteraktion und KI-Assistenten Sprach-Interaktion wird nicht nur realistischer, sondern es wird KIs mehr und mehr möglich sein durch Webseiten zu navigie

KI-Alltag - GPT4o als Reiseführer

Bild
OpenAI Abo beendet  Aufgrund der Aktion rund um Scarlett Johanssons Stimme #scarlettopenai habe ich vorhin mein Abo bei OpenAI beendet bzw. Nicht verlängert.  Ich finde "Sky" klingt nicht nach Frau Johannsen, aber sie hat halt "Nein" gesagt und dann trotzdem eine Sprecherin zu engagieren, die sehr ähnlich klingt, ist ein bescheidener Move. Macht man nicht. Das bedeutet nicht, dass ich GPT4o nicht weiter nutzen werde, nur eben nicht in der bezahlten Version. Für mich bringen die GPTs derzeit eh nicht so viel... Römische Geschichte erkunden mit GPT4o So lange das Abo noch gilt und wir eh gerade in Rom und Umgebung Urlaub machen, habe ich heute GPT4o als Reiseführer genutzt. TL;DR es macht schon Spaß und ist leicht zu bedienen, da man direkt Bilder aus der Kamera oder Websiten in den Chat laden kann. Besonders beeindruckend war, dass er lateinische Schriften erkannte: Aber auch bei anderen Objekten war die KI Recht gut. Beim Besichtigen der Ausgrabungsstätt