NVIDIA NeMo, ein Open-Source-Toolkit für konversationelle KI, hat Parakeet veröffentlicht, eine Reihe von Modellen für die automatische Spracherkennung (ASR). Die vier Parakeet-Modelle, die mit Suno.ai entwickelt wurden und zwischen 0,6 und 1,1 Milliarden Parameter haben, können gesprochenes Englisch transkribieren und stehen unter CC BY 4.0 für die kommerzielle Nutzung zur Verfügung. Sie wurden mit 64.000 Stunden Audiodaten trainiert, die verschiedene Akzente, Bereiche und Geräuschbedingungen abdecken. Laut Anbieter sind die Modelle robust gegenüber nicht-sprachlichen Segmenten wie Musik und Stille und übertreffen OpenAIs Whisper v3 in Benchmarks. Sie bieten außerdem eine benutzerfreundliche Integration in Projekte durch vortrainierte Kontrollpunkte. Eine Demo des 1,1 Milliarden Parameter Modells ist hier verfügbar.
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
MeganeX Superlight 8K: Darum verzögert sich der Europa-Start des High-End-PC-VR-Headsets
Ein VR-Kult-Spiel wird noch besser: Myst VR erhält kostenloses Update auf Version 2.0
Neuer Story-Trailer zu VR-Blockbuster Behemoth zeigt brutales Gameplay
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!