Inhalt
summary Zusammenfassung

OpenAI erklärt, warum Sprachmodelle immer halluzinieren werden. Künftig sollen sie aber zumindest besser erkennen, wenn sie Unsinn erzählen.

Anzeige

Sprachmodelle wie jene hinter ChatGPT werden auch künftig falsche Aussagen generieren – sogenannte Halluzinationen a.k.a. Bullshit. Das schreibt OpenAI in einer Analyse zur strukturellen Begrenztheit aktueller KI-Systeme.

Die Ursache liegt in der Architektur und Zielsetzung der Modelle: Sie sind darauf trainiert, das nächstwahrscheinliche Wort vorherzusagen, nicht, wahre Aussagen zu treffen. Weil sie keine Vorstellung von Wahrheit haben, können sie Falsches ebenso flüssig formulieren wie Richtiges, solange es sprachlich plausibel wirkt. In kreativen Anwendungen ist das gewünscht, problematisch wird es, wenn Nutzer faktische Korrektheit erwarten.

OpenAI unterscheidet dabei verschiedene Arten von Halluzinationen. Intrinsische Halluzinationen widersprechen der Eingabeaufforderung direkt – etwa wenn ein Modell auf die Frage "Wie viele Ds sind in DEEPSEEK?" mit "2" antwortet.

Anzeige
Anzeige

Extrinsische Halluzinationen wiederum widersprechen dem Trainingswissen oder der Realität, etwa bei falschen Biografien oder erfundenen Zitaten.

Eine weitere Kategorie sind sogenannte "Arbitrary-Fact"-Halluzinationen: Aussagen über Fakten wie Geburtstage oder Dissertationstitel, die selten oder gar nicht im Trainingsmaterial vorkommen. Da es dafür kein erkennbares Muster gibt, geraten Sprachmodelle hier zwangsläufig in epistemische Unsicherheit – und raten.

Zur Eindämmung von Halluzinationen kombiniert OpenAI mehrere technische Ansätze: verstärkendes Lernen mit menschlichem Feedback, externe Tools wie Rechner oder Datenbanken, sowie Suchfunktionen (Retrieval-Augmented Generation). Ergänzt werden diese durch spezialisierte Subsysteme zur Faktenprüfung. Langfristig soll eine modulare Gesamtarchitektur – ein "System aus Systemen" – dafür sorgen, dass Sprachmodelle kontrollierter und verlässlicher antworten.

Modelle sollen Unsicherheit erkennen

Vollständig vermeiden lassen sich Halluzinationen laut OpenAI nicht. Künftig sollen Modelle aber erkennen, wenn sie keine verlässliche Antwort geben können – und dies auch mitteilen. Im Zweifel sollen sie externe Tools nutzen, um Hilfe bitten oder die Ausgabe abbrechen.

Das GPT-5-Mini-Denkmodell soll Unsicherheit schon viel häufiger einräumen als das o4-mini-Modell. | Bild: OpenAI

Das Verhalten soll sich stärker an menschlicher Unsicherheit orientieren: Auch Menschen wissen nicht alles, geben aber mitunter zu, wenn sie etwas nicht wissen, anstatt einfach zu antworten. Natürlich äußern sich auch Menschen manchmal trotzdem – was dann ebenso wie bei der KI zu Problemen führen kann.

Empfehlung

Vor kurzem zeigte ein Stanford-Mathematikprofessor diesen Fortschritt: Er testet seit einem Jahr dasselbe ungelöste Problem an OpenAI-Modellen. Während frühere Versionen falsche Antworten gaben, erkannte das aktuelle Modell erstmals, dass es das Problem nicht lösen kann – und sagte das auch.

Auch beim schwierigsten Problem der diesjährigen Internationalen Mathematik-Olympiade blieb das Modell korrekt stumm. Die zugrunde liegenden Verbesserungen sollen in einigen Monaten in kommerziellen Modellen verfügbar sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI erklärt, dass Sprachmodelle wie ChatGPT auch in Zukunft fehlerhafte Inhalte erzeugen werden, da sie auf die Vorhersage des wahrscheinlichsten nächsten Wortes ausgelegt sind und keine Vorstellung von Wahrheit besitzen.
  • Um Halluzinationen zu reduzieren, setzt OpenAI auf eine Kombination aus verstärkendem Lernen mit menschlichem Feedback, externe Tools wie Rechner und Datenbanken sowie spezielle Subsysteme zur Faktenprüfung. Langfristig soll eine modulare Architektur für kontrolliertere Antworten sorgen.
  • Künftig sollen Sprachmodelle erkennen, wenn sie keine verlässliche Antwort geben können, und dies auch mitteilen. Erste Tests zeigen, dass Modelle zunehmend Unsicherheit eingestehen und Aufgaben ablehnen, wenn sie keine korrekte Lösung finden.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!