Anzeige
Skip to content
Read full article about: TADA: Hume AI veröffentlicht schnelles Open-Source-Modell für Sprachgenerierung ohne Halluzinationen

Hume AI veröffentlicht TADA als Open Source, ein KI-System zur Sprachgenerierung, das Text und Audio synchron verarbeitet. TADA ordnet jedem Text-Token genau ein Audio-Signal zu, statt wie bisherige Systeme deutlich mehr Audio-Frames pro Text-Token zu erzeugen. Das Ergebnis laut Hume AI: TADA ist über fünfmal schneller als vergleichbare Systeme und produzierte in Tests mit über 1.000 Samples keine Transkriptions-Halluzinationen, also keine erfundenen oder übersprungenen Wörter im Vergleich zum Ausgangstext. Bei menschlichen Bewertungen erreichte das System 3,78 von 5 Punkten für Natürlichkeit.

TADA soll kompakt genug sein für den Einsatz auf Smartphones. Einschränkungen gibt es bei langen Texten, wo die Stimme gelegentlich abdriftet. Verfügbar sind Modelle mit 1B und 3B Parametern auf Llama-Basis, für Englisch und sieben weitere Sprachen (nur 3B). Code und Modelle stehen auf GitHub und Hugging Face unter der MIT-Lizenz bereit, technische Details gibt es im Paper.

Read full article about: Resemble AI stellt Chatterbox vor: TTS-Modell mit Emotionssteuerung

Das KI-Startup Resemble AI hat mit Chatterbox ein quelloffenes Sprachsynthese-Modell veröffentlicht, das unter MIT-Lizenz verfügbar ist. Chatterbox kann Stimmen mit nur wenigen Sekunden Referenz-Audio klonen und erlaubt per Emotionsparameter die Steuerung des Sprechstils – etwa dramatisch oder monoton. Die Software läuft lokal und soll in Echtzeit mit unter 200 Millisekunden Latenz reagieren. Sie funktioniert laut Foren stabil auf Windows, Mac, Linux und mit nur 5–6 GB VRAM. Alle generierten Audiodateien enthalten ein kaum hörbares Wasserzeichen ("PerTh") zur Erkennung von KI-Stimmen. In internen Blindtests wurde Chatterbox laut Resemble AI häufiger als ElevenLabs bevorzugt. Das Modell richtet sich in erster Linie an Entwickler und scheint primär auf Englisch optimiert zu sein:

Decoder EN

Decoder DE

Eine Demo ist hier verfügbar.

Read full article about: Neuer Hype um KI-Assistenten: Amazon plant angeblich großes Alexa-Update

Amazon plant, seine Sprachassistentin Alexa noch in diesem Jahr mit generativer KI aufzurüsten, um mit Chatbots wie dem von OpenAI und Google mitzuhalten. Laut Quellen von CNBC wird Amazon für die neue Version von Alexa eine monatliche Gebühr verlangen, die nicht im Prime-Abo enthalten ist. Alexa galt intern unter Gründer Jeff Bezos als Lieblingsprojekt, verlor aber unter CEO Andy Jassy an Priorität. Das Alexa-Team steht nun unter Druck, den Sprachassistenten relevant zu halten. Amazon hofft, von der großen installierten Basis an Alexa-Geräten zu profitieren. Herausforderungen sind die Kosten der generativen KI und der Wettbewerb um KI-Talente. Für das Alexa-Upgrade will Amazon sein eigenes großes Sprachmodell Titan nutzen. Angeblich arbeitet Amazon auch am Sprachmodell Olympus, zu dem man aber länger nichts gehört hat. Bezos sei besorgt, dass Amazon bei KI hinterherhinkt. Trotz seines Rückzugs als CEO sei er "sehr engagiert" in der KI-Strategie bei Amazon.