Maximilian Schreiner
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Read full article about: Open-Source-KI Kokoro erzeugt Stimmen auf dem Niveau kommerzieller Anbieter
Das Open-Source-Sprachmodell Kokoro wurde auf HuggingFace veröffentlicht. Mit 82 Millionen Parametern kann es Stimmen erzeugen, die an das Niveau kommerzieller Anbieter wie Eleven Labs heranreichen, wie die Ergebnisse der TTS Spaces Arena zeigen. Kokoro unterstützt amerikanisches und britisches Englisch und wurde mit weniger als 100 Stunden Audiomaterial trainiert. Aktuell sind 10 Stimmen verfügbar. Es hat aber Einschränkungen, wie fehlende Stimmklon-Fähigkeiten und weitere Sprachen sind bisher nicht geplant. Der Quellcode für die Inferenz steht unter MIT-Lizenz zur Verfügung, während das Modell selbst unter Apache 2.0 lizenziert ist.
Now that we have amazing open source TTS with fast inference, what are you building?https://t.co/XTsRwtiq0Q pic.twitter.com/R7HrtB1LeJ
— Victor M (@victormustar) January 13, 2025