Sprach-KI Archive

KI in der Praxis

19. Juni 202519. Juni 2025

Short

Das KI-Startup Resemble AI hat mit Chatterbox ein quelloffenes Sprachsynthese-Modell veröffentlicht, das unter MIT-Lizenz verfügbar ist. Chatterbox kann Stimmen mit nur wenigen Sekunden Referenz-Audio klonen und erlaubt per Emotionsparameter die Steuerung des Sprechstils – etwa dramatisch oder monoton. Die Software läuft lokal und soll in Echtzeit mit unter 200 Millisekunden Latenz reagieren. Sie funktioniert laut Foren stabil auf Windows, Mac, Linux und mit nur 5–6 GB VRAM. Alle generierten Audiodateien enthalten ein kaum hörbares Wasserzeichen ("PerTh") zur Erkennung von KI-Stimmen. In internen Blindtests wurde Chatterbox laut Resemble AI häufiger als ElevenLabs bevorzugt. Das Modell richtet sich in erster Linie an Entwickler und scheint primär auf Englisch optimiert zu sein:

Decoder EN

Decoder DE

Eine Demo ist hier verfügbar.

Github

KI in der Praxis

22. Mai 2024

Short

Amazon plant, seine Sprachassistentin Alexa noch in diesem Jahr mit generativer KI aufzurüsten, um mit Chatbots wie dem von OpenAI und Google mitzuhalten. Laut Quellen von CNBC wird Amazon für die neue Version von Alexa eine monatliche Gebühr verlangen, die nicht im Prime-Abo enthalten ist. Alexa galt intern unter Gründer Jeff Bezos als Lieblingsprojekt, verlor aber unter CEO Andy Jassy an Priorität. Das Alexa-Team steht nun unter Druck, den Sprachassistenten relevant zu halten. Amazon hofft, von der großen installierten Basis an Alexa-Geräten zu profitieren. Herausforderungen sind die Kosten der generativen KI und der Wettbewerb um KI-Talente. Für das Alexa-Upgrade will Amazon sein eigenes großes Sprachmodell Titan nutzen. Angeblich arbeitet Amazon auch am Sprachmodell Olympus, zu dem man aber länger nichts gehört hat. Bezos sei besorgt, dass Amazon bei KI hinterherhinkt. Trotz seines Rückzugs als CEO sei er "sehr engagiert" in der KI-Strategie bei Amazon.

CNBC

KI-Forschung

2. Januar 20232. Januar 2023

GPT-4 könnte die US-Rechtsanwaltsprüfung bestehen

KI-Forschung

29. Dezember 202229. Dezember 2022

Update

Themen Hub Sprach-KI

GPT-4 könnte die US-Rechtsanwaltsprüfung bestehen

Meta zeigt extrem schnellen Lernalgorithmus für Sprache, Bild und Text

ChatGPT im Test: Schlägt OpenAIs Text-KI unsere Redaktion?

Deepminds neues Sprachmodell macht Kompromisse

Versteckte Fähigkeiten großer Sprachmodelle: Ist Emergenz die Norm?

GPT-3-Demo in Roblox zeigt die KI-Zukunft von NPCs

Große KI-Modelle könnten bald viel schneller noch größer werden

Sparsification: Graphcore und Aleph Alpha zeigen schlankes KI-Sprachmodell

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Bankverbindung