Skip to content

Neue Nvidia-Spracherkennungsmodelle schlagen OpenAI Whisper v3

NVIDIA NeMo, ein Open-Source-Toolkit für konversationelle KI, hat Parakeet veröffentlicht, eine Reihe von Modellen für die automatische Spracherkennung (ASR). Die vier Parakeet-Modelle, die mit Suno.ai entwickelt wurden und zwischen 0,6 und 1,1 Milliarden Parameter haben, können gesprochenes Englisch transkribieren und stehen unter CC BY 4.0 für die kommerzielle Nutzung zur Verfügung. Sie wurden mit 64.000 Stunden Audiodaten trainiert, die verschiedene Akzente, Bereiche und Geräuschbedingungen abdecken. Laut Anbieter sind die Modelle robust gegenüber nicht-sprachlichen Segmenten wie Musik und Stille und übertreffen OpenAIs Whisper v3 in Benchmarks. Sie bieten außerdem eine benutzerfreundliche Integration in Projekte durch vortrainierte Kontrollpunkte. Eine Demo des 1,1 Milliarden Parameter Modells ist hier verfügbar.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren