Anzeige
Short

Das KI-Startup Resemble AI hat mit Chatterbox ein quelloffenes Sprachsynthese-Modell veröffentlicht, das unter MIT-Lizenz verfügbar ist. Chatterbox kann Stimmen mit nur wenigen Sekunden Referenz-Audio klonen und erlaubt per Emotionsparameter die Steuerung des Sprechstils – etwa dramatisch oder monoton. Die Software läuft lokal und soll in Echtzeit mit unter 200 Millisekunden Latenz reagieren. Sie funktioniert laut Foren stabil auf Windows, Mac, Linux und mit nur 5–6 GB VRAM. Alle generierten Audiodateien enthalten ein kaum hörbares Wasserzeichen ("PerTh") zur Erkennung von KI-Stimmen. In internen Blindtests wurde Chatterbox laut Resemble AI häufiger als ElevenLabs bevorzugt. Das Modell richtet sich in erster Linie an Entwickler und scheint primär auf Englisch optimiert zu sein:

Decoder EN

Decoder DE

Eine Demo ist hier verfügbar.

Short

Amazon plant, seine Sprachassistentin Alexa noch in diesem Jahr mit generativer KI aufzurüsten, um mit Chatbots wie dem von OpenAI und Google mitzuhalten. Laut Quellen von CNBC wird Amazon für die neue Version von Alexa eine monatliche Gebühr verlangen, die nicht im Prime-Abo enthalten ist. Alexa galt intern unter Gründer Jeff Bezos als Lieblingsprojekt, verlor aber unter CEO Andy Jassy an Priorität. Das Alexa-Team steht nun unter Druck, den Sprachassistenten relevant zu halten. Amazon hofft, von der großen installierten Basis an Alexa-Geräten zu profitieren. Herausforderungen sind die Kosten der generativen KI und der Wettbewerb um KI-Talente. Für das Alexa-Upgrade will Amazon sein eigenes großes Sprachmodell Titan nutzen. Angeblich arbeitet Amazon auch am Sprachmodell Olympus, zu dem man aber länger nichts gehört hat. Bezos sei besorgt, dass Amazon bei KI hinterherhinkt. Trotz seines Rückzugs als CEO sei er "sehr engagiert" in der KI-Strategie bei Amazon.

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Google News