Skip to content

Open-Source-KI Kokoro erzeugt Stimmen auf dem Niveau kommerzieller Anbieter

Das Open-Source-Sprachmodell Kokoro wurde auf HuggingFace veröffentlicht. Mit 82 Millionen Parametern kann es Stimmen erzeugen, die an das Niveau kommerzieller Anbieter wie Eleven Labs heranreichen, wie die Ergebnisse der TTS Spaces Arena zeigen. Kokoro unterstützt amerikanisches und britisches Englisch und wurde mit weniger als 100 Stunden Audiomaterial trainiert. Aktuell sind 10 Stimmen verfügbar. Es hat aber Einschränkungen, wie fehlende Stimmklon-Fähigkeiten und weitere Sprachen sind bisher nicht geplant. Der Quellcode für die Inferenz steht unter MIT-Lizenz zur Verfügung, während das Modell selbst unter Apache 2.0 lizenziert ist.

Quelle: HuggingFace

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren