Eine neue Studie zeigt, dass große Sprachmodelle intern oft die richtigen Antworten kennen, auch wenn sie falsche Ausgaben liefern. Das könnte zu zuverlässigeren KI-Systemen führen.
Ein Forscherteam der Technion-Universität, Google und Apple hat in einer Studie nachgewiesen, dass große Sprachmodelle mehr über ihre eigenen Fehler wissen, als bisher vermutet wurde. Die Untersuchung mit dem Titel "LLMs Know More Than They Show" gibt Einblicke in die interne Verarbeitung von richtigen und falschen Informationen durch KI-Modelle.
Die Wissenschaftler entwickelten eine neue Methode, um das "Innenleben" der KI genauer zu analysieren. Dabei konzentrierten sie sich besonders auf die sogenannten "exakten Antwort-Tokens" - jene Teile einer KI-Antwort, die die eigentliche Information enthalten. Bei der Frage "Was ist die Hauptstadt von Frankreich?" wäre in der Antwort "Die Hauptstadt von Frankreich ist Paris, eine weltberühmte Metropole" das Wort "Paris" das exakte Antwort-Token.
Die Forscher stellten fest, dass gerade in diesen Tokens die meisten Informationen darüber stecken, ob eine Antwort korrekt oder falsch ist. Überraschenderweise zeigte sich, dass die KI-Modelle manchmal intern die richtige Antwort "wussten", aber dennoch eine falsche Antwort ausgaben. Die Modelle verfügen also über mehr Informationen, als sie in ihren Antworten preisgeben.
Neue Möglichkeiten im Kampf gegen Halluzinationen?
Das Team untersuchte auch die Fähigkeit der KI-Modelle, ihre Fehlererkennung auf verschiedene Aufgaben zu übertragen. Dabei zeigte sich, dass dies besonders gut bei ähnlichen Aufgabentypen funktioniert. Nach Ansicht der Forscher deutet das darauf hin, dass die KI spezifische Fähigkeiten entwickelt, um mit bestimmten Arten von Informationen umzugehen.
Diese Erkenntnisse könnten laut den Forschern zu neuen Ansätzen führen, um die Zuverlässigkeit und Genauigkeit von KI-Systemen zu verbessern. Insbesondere die Tatsache, dass Modelle intern oft mehr "wissen", als sie in ihren Ausgaben zeigen, eröffne Möglichkeiten für verbesserte Fehlererkennungs- und Korrekturmechanismen.