TADA: Hume AI veröffentlicht schnelles Open-Source-Modell für Sprachgenerierung ohne Halluzinationen
Hume AI veröffentlicht TADA als Open Source, ein KI-System zur Sprachgenerierung, das Text und Audio synchron verarbeitet. TADA ordnet jedem Text-Token genau ein Audio-Signal zu, statt wie bisherige Systeme deutlich mehr Audio-Frames pro Text-Token zu erzeugen. Das Ergebnis laut Hume AI: TADA ist über fünfmal schneller als vergleichbare Systeme und produzierte in Tests mit über 1.000 Samples keine Transkriptions-Halluzinationen, also keine erfundenen oder übersprungenen Wörter im Vergleich zum Ausgangstext. Bei menschlichen Bewertungen erreichte das System 3,78 von 5 Punkten für Natürlichkeit.
TADA soll kompakt genug sein für den Einsatz auf Smartphones. Einschränkungen gibt es bei langen Texten, wo die Stimme gelegentlich abdriftet. Verfügbar sind Modelle mit 1B und 3B Parametern auf Llama-Basis, für Englisch und sieben weitere Sprachen (nur 3B). Code und Modelle stehen auf GitHub und Hugging Face unter der MIT-Lizenz bereit, technische Details gibt es im Paper.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren