OpenAI hat gestern den Prototyp seiner KI-Suchmaschine SearchGPT vorgestellt. Das vorproduzierte Video, das die Fähigkeiten des Tools demonstrieren soll, zeigt jedoch bereits einen schwerwiegenden Fehler. Damit befindet sich SearchGPT in guter Gesellschaft.
In der im Rahmen der Ankündigung veröffentlichten Demo sucht ein:e fiktive:r Nutzer:in nach "Musikfestivals in Boone, North Carolina im August". SearchGPT listet daraufhin Festivals auf, von denen das erste das An Appalachian Summer Festival ist, das laut SearchGPT vom 29. Juli bis 16. August Kunstveranstaltungen durchführt.
Das Festival hat jedoch bestätigt, dass es bereits am 29. Juni begonnen hat und das letzte Konzert am 27. Juli stattfinden wird. Die von SearchGPT angegebenen Daten sind in Wirklichkeit die Tage, an denen die Festivalkasse geschlossen ist.
Solche Fehler entstehen, weil das KI-Modell die Sätze, die es ausgibt, nicht versteht und vorhandene Informationen willkürlich umformatiert und in neue Kontexte stellt. Die Tatsache, dass es ein solcher Fehler bereits zweimal (siehe unten) in eine offizielle Produktpräsentation geschafft hat, zeigt, wie subtil und schwer zu finden sie sind - und das ist ein großer Kritikpunkt an LLM-Suchen. Sie sind überzeugend falsch.
OpenAI-Sprecherin Kayla Wood räumte den Fehler gegenüber The Atlantic ein und erklärte: "Dies ist ein erster Prototyp, und wir werden ihn weiter verbessern."
Dass das US-Unternehmen solches Fehlverhalten seiner KI-Suchmaschine erwartet, zeigt auch das vorsichtige Vorgehen beim Rollout von SearchGPT. Der Prototyp ist nur wenigen Nutzern zugänglich, Interessenten können sich auf eine Warteliste setzen lassen.
Funktionen, die sich dauerhaft bewähren, sollen auf ChatGPT übertragen werden. Auch OpenAI geht offenbar nicht davon aus, dass SearchGPT in wenigen Wochen den Suchmarkt erobern wird. Es ist ein erster Test.
"Wir werden aus dem Prototyp lernen, ihn verbessern und dann die Technologie in ChatGPT integrieren, um ihn in Echtzeit und maximal hilfreich zu machen", schreibt OpenAI-CEO Sam Altman.
Auch Google Bard patzte in erster Demo
Frappierende Ähnlichkeit weist der Fall zu dem von Googles Chatbot Bard auf, der in seiner ersten Demo fälschlicherweise behauptete, das erste Bild eines Planeten außerhalb unseres Sonnensystems habe das Weltraumteleskop JWST aufgenommen.
Die Börse reagierte damals prompt: Alphabets Börsenwert sank um rund 100 Milliarden US-Dollar, zu diesem Zeitpunkt rund neun Prozent. Die Ankündigung von OpenAIs SearchGPT kostete Google jetzt erneut wenige Prozent Börsenwert - trotz des KI-Fehlers bei OpenAI.
SearchGPT ist OpenAIs Antwort auf Googles Search Generative Experience, mittlerweile als AI Overviews für viele Nutzer:innen verfügbar. Streng genommen ist es umgekehrt: Googles AI Overviews waren eine Reaktion auf eine vermutete Bedrohung durch OpenAI. Google wollte dem KI-Startup zuvorkommen.
Dabei nahm Google Peinlichkeiten in Kauf. Innerhalb kürzester Zeit sammelten sich Beispiele für teilweise lebensgefährliche Gesundheitstipps und andere unsinnige oder falsche Aussagen, die jedoch im Kontext der Google-Suchmaschine den Eindruck erweckten, auf seriösen Quellen zu beruhen.
Google fährt KI-Übersichten zurück
Die falschen Antworten nahm Google öffentlich zur Kenntnis und gelobte Besserung. Das grundlegende Problem scheint jedoch nicht nachhaltig gelöst: Mittlerweile hat Google einer Analyse zufolge die Anzeige der AI Overviews drastisch zurückgefahren.
Wurden anfangs noch 84 Prozent der Suchanfragen mit KI-Zusammenfassungen beantwortet, sind es heute weniger als 15 Prozent. Diese Entwicklung hat allerdings Microsoft nicht davon abgehalten, eine fast identische Funktion in Bing einzuführen.
Selbst wenn es OpenAI gelingen sollte, die Halluzinationsrate bei SearchGPT drastisch zu reduzieren, bliebe ein grundsätzliches Problem: Das Geschäftsmodell Suche benötigt Skalierung. Und mehr Nutzer bedeuten mehr Fehler.
Schon eine Halluzinationsrate von einem Prozent würde auf Google-Niveau zu mehreren zehn Millionen falschen Antworten pro Tag führen. Und bislang gibt es keine Lösung, um weichen KI-Bullshit zuverlässig auszuschalten - dabei ist das Problem so alt wie die Technologie selbst.
Hinzu kommt, dass LLM-Suchanfragen viel rechenintensiver und damit teurer sind als herkömmliche Suchanfragen und es viele ungelöste Fragen rund um die Webökonomie im Chatbot-Zeitalter gibt.