Anzeige
Skip to content

Ja, auch generative KI für Audio kann (und wird) halluzinieren

Image description
Midjourney prompted by THE DECODER

Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in etwa einem Prozent der Fälle Inhalte halluziniert. Besonders betroffen sind Menschen mit Sprachstörungen.

Laut einer Studie der Cornell University und anderer Universitäten fügt die Whisper-KI von OpenAI in rund 1,4 Prozent der untersuchten Audioaufnahmen Sätze und Phrasen ein, die im Original gar nicht vorkommen.

1,4 Prozent mag nicht nach viel klingen, aber wenn diese oder ähnliche Software millionenfach eingesetzt würde, käme schnell eine große Menge an Fehlern zusammen und Menschen könnten zu Schaden kommen.

Denn die Forscher stellten auch fest, dass diese Halluzinationen schädlich sein können: 38 Prozent der erfundenen Texte enthielten nach ihren Erkenntnissen problematische Inhalte wie Gewaltdarstellungen, falsche Zuordnungen von Namen und Beziehungen oder irreführende Autoritätsansprüche.

Anzeige
DEC_D_Incontent-1

Menschen mit Sprachproblemen sind stärker betroffen

Die Forscher fanden heraus, dass vor allem längere Sprechpausen zu Halluzinationen führen. Besonders betroffen sind daher Menschen mit Sprachstörungen wie Aphasie, die häufiger und länger pausieren. Bei ihren Aufnahmen lag die Halluzinationsrate bei 1,7 Prozent, während sie bei der Kontrollgruppe nur 1,2 Prozent betrug.

Wie die Associated Press berichtet, bestätigen weitere Forscher das Problem. Ein Wissenschaftler der University of Michigan fand demnach in acht von zehn Transkriptionen Halluzinationen. Ein Machine Learning Engineer entdeckte in etwa der Hälfte von über 100 Stunden analysierter Aufnahmen Fehler oder Ungenauigkeiten. Ein dritter Entwickler habe in fast allen seiner 26.000 Transkripte Fehler gefunden.

OpenAI ist sich der Schwächen von Whisper bewusst. Das Unternehmen rät davon ab, das System in "Hochrisikobereichen" einzusetzen, in denen Fehler in der Genauigkeit zu erheblichen Fehlern in den Ergebnissen führen können.

Auch das aktuellste v3-Modell von Whisper scheint weiter von Halluzinationen betroffen zu sein. Das Unternehmen vermutet, dass die Halluzinationen entstehen, weil die entsprechenden "Modelle aufgrund ihrer allgemeinen Sprachkenntnisse versuchen, das nächste Wort im Audio vorherzusagen und gleichzeitig das Audio selbst zu transkribieren."

Anzeige
DEC_D_Incontent-2

Audio-KI ist nicht automatisch richtig

Dass audiobasierte KI-Tools wie Whisper auch halluzinieren können, ist zwar dokumentiert, aber offenbar bisher nicht jedem bekannt. Das zeigt der aktuelle Wirbel um KI-generierte Podcasts.

Denn was für Whisper bei der Transkription von Sprache in Text gilt, trifft auch auf den umgekehrten Weg zu: KI-generierte Podcasts, wie sie seit NotebookLMs Audio Overviews populär geworden sind, können ebenso Fehler enthalten.

Da gerade dieses Tool darauf ausgelegt ist, kreativ und ausschweifend über Inhalte zu berichten, ist hier die Gefahr von Halluzinationen besonders groß. NotebookLM macht zum Teil aus recht kurzen Themen mehrminütige Podcasts. Hier ist viel Platz für Fehler, die aber durch die authentisch klingenden KI-Stimmen sehr glaubwürdig erzählt werden.

Das bedeutet nicht, dass solche KI-Podcasts nutzlos sind. Sie können etwa für die Produktion von Lerninhalten geeignet sein, wenn die Inhalte bereits bekannt sind und überprüft werden können - aber eben nicht für das blinde Lernen von neuen Themen.

Wie bei allen KI-generierten Inhalten, seien es Texte, Transkripte oder Podcasts, sind Menschen erforderlich, die wissen, worum es geht, und die generierten Inhalte kontrollieren und freigeben. Blindes Vertrauen in KI-Inhalte wird beim derzeitigen Stand der Technik unweigerlich zu Fehlern führen, unabhängig davon, ob es sich um Text, Bild, Audio oder Suchmaschinen handelt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren