Anzeige
Short

Das Open-Source-Sprachmodell Kokoro wurde auf HuggingFace veröffentlicht. Mit 82 Millionen Parametern kann es Stimmen erzeugen, die an das Niveau kommerzieller Anbieter wie Eleven Labs heranreichen, wie die Ergebnisse der TTS Spaces Arena zeigen. Kokoro unterstützt amerikanisches und britisches Englisch und wurde mit weniger als 100 Stunden Audiomaterial trainiert. Aktuell sind 10 Stimmen verfügbar. Es hat aber Einschränkungen, wie fehlende Stimmklon-Fähigkeiten und weitere Sprachen sind bisher nicht geplant. Der Quellcode für die Inferenz steht unter MIT-Lizenz zur Verfügung, während das Modell selbst unter Apache 2.0 lizenziert ist.

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Google News