Inhalt
summary Zusammenfassung

Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in etwa einem Prozent der Fälle Inhalte halluziniert. Besonders betroffen sind Menschen mit Sprachstörungen.

Anzeige

Laut einer Studie der Cornell University und anderer Universitäten fügt die Whisper-KI von OpenAI in rund 1,4 Prozent der untersuchten Audioaufnahmen Sätze und Phrasen ein, die im Original gar nicht vorkommen.

1,4 Prozent mag nicht nach viel klingen, aber wenn diese oder ähnliche Software millionenfach eingesetzt würde, käme schnell eine große Menge an Fehlern zusammen und Menschen könnten zu Schaden kommen.

Denn die Forscher stellten auch fest, dass diese Halluzinationen schädlich sein können: 38 Prozent der erfundenen Texte enthielten nach ihren Erkenntnissen problematische Inhalte wie Gewaltdarstellungen, falsche Zuordnungen von Namen und Beziehungen oder irreführende Autoritätsansprüche.

Anzeige
Anzeige

Menschen mit Sprachproblemen sind stärker betroffen

Die Forscher fanden heraus, dass vor allem längere Sprechpausen zu Halluzinationen führen. Besonders betroffen sind daher Menschen mit Sprachstörungen wie Aphasie, die häufiger und länger pausieren. Bei ihren Aufnahmen lag die Halluzinationsrate bei 1,7 Prozent, während sie bei der Kontrollgruppe nur 1,2 Prozent betrug.

Wie die Associated Press berichtet, bestätigen weitere Forscher das Problem. Ein Wissenschaftler der University of Michigan fand demnach in acht von zehn Transkriptionen Halluzinationen. Ein Machine Learning Engineer entdeckte in etwa der Hälfte von über 100 Stunden analysierter Aufnahmen Fehler oder Ungenauigkeiten. Ein dritter Entwickler habe in fast allen seiner 26.000 Transkripte Fehler gefunden.

OpenAI ist sich der Schwächen von Whisper bewusst. Das Unternehmen rät davon ab, das System in "Hochrisikobereichen" einzusetzen, in denen Fehler in der Genauigkeit zu erheblichen Fehlern in den Ergebnissen führen können.

Auch das aktuellste v3-Modell von Whisper scheint weiter von Halluzinationen betroffen zu sein. Das Unternehmen vermutet, dass die Halluzinationen entstehen, weil die entsprechenden "Modelle aufgrund ihrer allgemeinen Sprachkenntnisse versuchen, das nächste Wort im Audio vorherzusagen und gleichzeitig das Audio selbst zu transkribieren."

Audio-KI ist nicht automatisch richtig

Dass audiobasierte KI-Tools wie Whisper auch halluzinieren können, ist zwar dokumentiert, aber offenbar bisher nicht jedem bekannt. Das zeigt der aktuelle Wirbel um KI-generierte Podcasts.

Empfehlung

Denn was für Whisper bei der Transkription von Sprache in Text gilt, trifft auch auf den umgekehrten Weg zu: KI-generierte Podcasts, wie sie seit NotebookLMs Audio Overviews populär geworden sind, können ebenso Fehler enthalten.

Da gerade dieses Tool darauf ausgelegt ist, kreativ und ausschweifend über Inhalte zu berichten, ist hier die Gefahr von Halluzinationen besonders groß. NotebookLM macht zum Teil aus recht kurzen Themen mehrminütige Podcasts. Hier ist viel Platz für Fehler, die aber durch die authentisch klingenden KI-Stimmen sehr glaubwürdig erzählt werden.

Das bedeutet nicht, dass solche KI-Podcasts nutzlos sind. Sie können etwa für die Produktion von Lerninhalten geeignet sein, wenn die Inhalte bereits bekannt sind und überprüft werden können - aber eben nicht für das blinde Lernen von neuen Themen.

Wie bei allen KI-generierten Inhalten, seien es Texte, Transkripte oder Podcasts, sind Menschen erforderlich, die wissen, worum es geht, und die generierten Inhalte kontrollieren und freigeben. Blindes Vertrauen in KI-Inhalte wird beim derzeitigen Stand der Technik unweigerlich zu Fehlern führen, unabhängig davon, ob es sich um Text, Bild, Audio oder Suchmaschinen handelt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in rund 1,4 Prozent der untersuchten Audioaufnahmen Inhalte halluziniert, also Sätze und Phrasen einfügt, die im Original nicht vorkommen.
  • Andere berichteten von deutlich höheren Halluzinationsraten von 50 Prozent und mehr. Längere Sprechpausen führen häufiger zu Halluzinationen.
  • Das Problem der Halluzinationen betrifft auch KI-generierte Podcasts. Hier ist die Fehleranfälligkeit aufgrund der kreativen und teilweise ausschweifenden Interpretation der Inhalte besonders hoch. Menschliche Kontrolle bleibt daher bei allen KI-generierten Inhalten unerlässlich, egal ob es sich um Text, Audio oder Suchmaschinen handelt.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!