Inhalt
summary Zusammenfassung

OpenAIs neues Open-Source-Modell "Whisper" kann viele Sprachen transkribieren und als Grundlage für Audio-Anwendungen dienen.

Whisper wurde laut OpenAI mit 680.000 Stunden Audio- und Multitasking-Daten (bspw. Transkription, Übersetzung, mit Hintergrundmusik etc.) trainiert. Das Transformer-basierte Modell beweist laut OpenAI, dass dieses umfassende Datentraining Spracherkennung robuster macht gegenüber Akzenten, Hintergrundgeräuschen und technischer Sprache.

Whisper unterstützt die Erkennung, Transkription und Übersetzung in verschiedenen Sprachen sowie die Identifikation einer Sprache. In der englischen Sprache, die rund zwei Drittel des Trainingsdatensatzes ausmachte, soll sich Whispers Spracherkennungsfähigkeit menschlichem Niveau annähern.

OpenAI hebt Zero-Shot-Fähigkeit hervor

Im Spracherkennungsbenchmark LibriSpeech erreicht Whisper nicht die Performance kleinerer, spezialisierter KI-Sprachmodelle, die etwa mit Audio-Text-Paaren speziell für diesen Benchmark trainiert wurden.

Anzeige
Anzeige

Jedoch hebt OpenAI Whispers Zero-Shot-Fähigkeit ohne vorherige Feineinstellung hervor, dank der das Modell bei Tests über viele verschiedene Datensätze hinweg eine um 50 Prozent geringere Fehlerrate aufweist als zuvor genannte Systeme. Whisper ist laut OpenAI "viel robuster" als auf LibriSpeech spezialisierte Spracherkennungsmodelle.

Das Whisper-Modell auf einen Blick. | Bild: OpenAI

Diese Messungen gelten für die englische Spracherkennung. Die Fehlerrate steigt bei im Datensatz unterrepräsentierten Sprachen. Zudem warnt OpenAI, dass Whisper Wörter transkribieren könnte, die nicht gesprochen wurden: Die Firma führt das auf die im Datentraining enthaltenen verrauschten Audioaufnahmen zurück.

Whisper ist laut OpenAI App-fähig

OpenAI stellt Whisper als Open-Source-Modell kostenlos bei Github zur Verfügung. Die Firma veröffentlicht Whisper laut eigenen Angaben hauptsächlich für die Forschung und als Grundlage für weitere Arbeiten für bessere Spracherkennung.

Die Whisper-Modelle könnten zwar nicht direkt für Spracherkennungsanwendungen verwendet werden. Doch die Geschwindigkeit und Größe der Modelle ließen wohl aufbauende Anwendungen zu, die eine Echtzeit-Spracherkennung und -Übersetzung in Echtzeit bieten. Die Geschwindigkeit und Genauigkeit von Whisper sei die Grundlage für Anwendungen für eine bezahlbare automatische Transkription und Übersetzung großer Mengen an Audiodaten.

Möglich, dass OpenAI Whisper auch für eigene Zwecke nutzt: Für das Training von Sprachmodellen wie GPT-3 und demnächst GPT-4 benötigt die Firma große Mengen Text. Durch die automatische Transkription von Audiodateien hätte OpenAI Zugang zu noch mehr Textdaten.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI.
  • Es kann englische Sprache auf menschlichem Niveau verstehen und transkribieren.
  • Die Open-Source-Modelle können laut OpenAI Entwicklern als Grundlage für hochwertige Spracherkennungs-Anwendungen dienen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!