Ja, auch generative KI für Audio kann (und wird) halluzinieren

Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in etwa einem Prozent der Fälle Inhalte halluziniert. Besonders betroffen sind Menschen mit Sprachstörungen.

Laut einer Studie der Cornell University und anderer Universitäten fügt die Whisper-KI von OpenAI in rund 1,4 Prozent der untersuchten Audioaufnahmen Sätze und Phrasen ein, die im Original gar nicht vorkommen.

1,4 Prozent mag nicht nach viel klingen, aber wenn diese oder ähnliche Software millionenfach eingesetzt würde, käme schnell eine große Menge an Fehlern zusammen und Menschen könnten zu Schaden kommen.

Denn die Forscher stellten auch fest, dass diese Halluzinationen schädlich sein können: 38 Prozent der erfundenen Texte enthielten nach ihren Erkenntnissen problematische Inhalte wie Gewaltdarstellungen, falsche Zuordnungen von Namen und Beziehungen oder irreführende Autoritätsansprüche.

Menschen mit Sprachproblemen sind stärker betroffen

Die Forscher fanden heraus, dass vor allem längere Sprechpausen zu Halluzinationen führen. Besonders betroffen sind daher Menschen mit Sprachstörungen wie Aphasie, die häufiger und länger pausieren. Bei ihren Aufnahmen lag die Halluzinationsrate bei 1,7 Prozent, während sie bei der Kontrollgruppe nur 1,2 Prozent betrug.

Wie die Associated Press berichtet, bestätigen weitere Forscher das Problem. Ein Wissenschaftler der University of Michigan fand demnach in acht von zehn Transkriptionen Halluzinationen. Ein Machine Learning Engineer entdeckte in etwa der Hälfte von über 100 Stunden analysierter Aufnahmen Fehler oder Ungenauigkeiten. Ein dritter Entwickler habe in fast allen seiner 26.000 Transkripte Fehler gefunden.

OpenAI ist sich der Schwächen von Whisper bewusst. Das Unternehmen rät davon ab, das System in "Hochrisikobereichen" einzusetzen, in denen Fehler in der Genauigkeit zu erheblichen Fehlern in den Ergebnissen führen können.

Auch das aktuellste v3-Modell von Whisper scheint weiter von Halluzinationen betroffen zu sein. Das Unternehmen vermutet, dass die Halluzinationen entstehen, weil die entsprechenden "Modelle aufgrund ihrer allgemeinen Sprachkenntnisse versuchen, das nächste Wort im Audio vorherzusagen und gleichzeitig das Audio selbst zu transkribieren."

Audio-KI ist nicht automatisch richtig

Dass audiobasierte KI-Tools wie Whisper auch halluzinieren können, ist zwar dokumentiert, aber offenbar bisher nicht jedem bekannt. Das zeigt der aktuelle Wirbel um KI-generierte Podcasts.

Empfehlung

KI in der Praxis

Update

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

Denn was für Whisper bei der Transkription von Sprache in Text gilt, trifft auch auf den umgekehrten Weg zu: KI-generierte Podcasts, wie sie seit NotebookLMs Audio Overviews populär geworden sind, können ebenso Fehler enthalten.

Da gerade dieses Tool darauf ausgelegt ist, kreativ und ausschweifend über Inhalte zu berichten, ist hier die Gefahr von Halluzinationen besonders groß. NotebookLM macht zum Teil aus recht kurzen Themen mehrminütige Podcasts. Hier ist viel Platz für Fehler, die aber durch die authentisch klingenden KI-Stimmen sehr glaubwürdig erzählt werden.

Das bedeutet nicht, dass solche KI-Podcasts nutzlos sind. Sie können etwa für die Produktion von Lerninhalten geeignet sein, wenn die Inhalte bereits bekannt sind und überprüft werden können - aber eben nicht für das blinde Lernen von neuen Themen.

Wie bei allen KI-generierten Inhalten, seien es Texte, Transkripte oder Podcasts, sind Menschen erforderlich, die wissen, worum es geht, und die generierten Inhalte kontrollieren und freigeben. Blindes Vertrauen in KI-Inhalte wird beim derzeitigen Stand der Technik unweigerlich zu Fehlern führen, unabhängig davon, ob es sich um Text, Bild, Audio oder Suchmaschinen handelt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Ja, auch generative KI für Audio kann (und wird) halluzinieren

Menschen mit Sprachproblemen sind stärker betroffen

Audio-KI ist nicht automatisch richtig

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

OpenAI veröffentlicht realistische KI-Stimmen in der API

Unregulierte KI-Stimmklone bergen mehr gesellschaftliche Risiken als Chancen

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Ja, auch generative KI für Audio kann (und wird) halluzinieren

Menschen mit Sprachproblemen sind stärker betroffen

Audio-KI ist nicht automatisch richtig

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

OpenAI veröffentlicht realistische KI-Stimmen in der API

Unregulierte KI-Stimmklone bergen mehr gesellschaftliche Risiken als Chancen