Open-Source-KI Kokoro erzeugt Stimmen auf dem Niveau kommerzieller Anbieter
Das Open-Source-Sprachmodell Kokoro wurde auf HuggingFace veröffentlicht. Mit 82 Millionen Parametern kann es Stimmen erzeugen, die an das Niveau kommerzieller Anbieter wie Eleven Labs heranreichen, wie die Ergebnisse der TTS Spaces Arena zeigen. Kokoro unterstützt amerikanisches und britisches Englisch und wurde mit weniger als 100 Stunden Audiomaterial trainiert. Aktuell sind 10 Stimmen verfügbar. Es hat aber Einschränkungen, wie fehlende Stimmklon-Fähigkeiten und weitere Sprachen sind bisher nicht geplant. Der Quellcode für die Inferenz steht unter MIT-Lizenz zur Verfügung, während das Modell selbst unter Apache 2.0 lizenziert ist.
Now that we have amazing open source TTS with fast inference, what are you building?https://t.co/XTsRwtiq0Q pic.twitter.com/R7HrtB1LeJ
— Victor M (@victormustar) January 13, 2025
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.