Elevenlabs hat ein neues Modell für Text-zu-Sprache veröffentlicht. Eleven v3 (alpha) ist ab sofort über die API verfügbar und bietet laut Unternehmen mehr Ausdrucksmöglichkeiten, Kontrolle und Unterstützung für über 70 Sprachen. Neu ist ein Dialogmodus mit beliebig vielen Sprechern sowie die Möglichkeit, mit Audiotags Emotionen und Stimme zu steuern.
Video: Elevenlabs
Die Nutzung der Eleven v3 (alpha) API ist mit einem kostenlosen Konto möglich, zusätzliche Funktionen können kostenpflichtig sein. Technische Details und Beispiele gibt es in der Dokumentation. Der Einstieg ist über eine kostenlose Anmeldung möglich.
OpenAI hat im Juli erstmals einen Monatsumsatz von einer Milliarde US-Dollar erzielt, teilte CFO Sarah Friar gegenüber CNBC mit. Das Unternehmen rechnet laut früheren Angaben damit, seinen Jahresumsatz 2025 auf 12,7 Milliarden Dollar zu verdreifachen. Bereits im Juni hatte OpenAI einen wiederkehrenden Jahresumsatz von zehn Milliarden Dollar erreicht. Der deutliche Zuwachs basiert vor allem auf dem Wachstum bezahlter ChatGPT-Abos, insbesondere nach dem Start des neuen Modells GPT-5. Trotz einiger Kritik zum Start des neuen Modells verzeichnet OpenAI laut Friar steigende Zahlen bei Plus- und Pro-Abonnenten. Die starke Nachfrage stellt das Unternehmen jedoch vor technische Herausforderungen: Die benötigte Rechenleistung übersteigt derzeit das verfügbare Angebot. CEO Sam Altman sagte vergangene Woche, OpenAI werde in den Ausbau von Rechenzentren investieren und rechne dabei mit Ausgaben in Billionenhöhe.
Yann LeCun, Metas KI-Ikone und Leiter der Forschungseinheit FAIR, berichtet künftig an den 28-jährigen Alexandr Wang. Wang, Gründer von Scale AI, übernahm kürzlich die Leitung des neuen Meta Superintelligence Lab (MSL), das sich auf die Entwicklung von Superintelligenz konzentrieren soll.
Im Zuge der Umstrukturierung wird die bisherige AGI-Abteilung aufgelöst. LeCuns FAIR bleibt als Grundlagenforschungseinheit bestehen und soll neue Ideen entwickeln, die dann in größeren Modelltrainings umgesetzt werden.
Ergänzt wird FAIR durch drei weitere Bereiche: ein kleines Team für große Modelle (TBD Lab), ein Bereich für produktnahe Forschung sowie ein zentrales Team für technische Infrastruktur. Ziel sei eine enge Verzahnung aller Bereiche, um Forschung und Entwicklung bei Meta zu beschleunigen, heißt es in Wangs interner Memo.
OpenAI-CEO Sam Altman ist sehr damit beschäftigt, nach dem etwas verunglückten Start von GPT-5 das Narrativ rund um seine Firma wieder einzufangen. GPT-6 soll schneller erscheinen als frühere Versionen (Anm.: 2,5 Jahre von GPT-4 auf -5) und sich stärker an Nutzer anpassen – etwa durch ein besseres Gedächtnis, das Vorlieben, Gewohnheiten, Idologien und Tonfall merkt. Diese Funktion bezeichnet Altman als wichtigste Neuerung.
ChatGPT bleibe vorerst das wichtigste Produkt von OpenAI für Verbraucher. Zugleich sieht er Grenzen in der Weiterentwicklung: Die aktuellen KI-Modelle hätten das Potenzial im Bereich Chat bereits ausgeschöpft. "Sie werden nicht viel besser – vielleicht sogar schlechter", sagte Altman laut CNBC.
OpenAIs Wette über Chatbots hinaus sind agentische Systeme, die über lange Zeiträume komplexe Aufgaben abarbeiten können. Diese Systeme sind jedoch nicht unbedingt bessere Gesprächspartner – genau darauf dürfte Altman anspielen.
Google stellt neue KI-Funktionen fürs Pixel 10 vor: Der neue Tensor-G5-Chip, entwickelt mit Google DeepMind, ermöglicht erstmals die Nutzung des Sprachmodells Gemini Nano direkt auf dem Gerät. Magic Cue verknüpft Inhalte aus Apps wie Gmail oder Kalender und schlägt kontextbezogene Aktionen vor, etwa die Ausgabe einer Adresse aus dem Google Kalender im Android Messaging-System.
Magic Cue versteht die Anfrage im Kontext des Kalenders und sucht die richtige Adresse raus. | Video: Google
Voice Translate übersetzt Telefonate in elf Sprachen in Echtzeit. Die Funktion Take a Message erstellt Transkripte verpasster Anrufe und erkennt nächste Schritte. Gemini Live bietet visuelle Hilfe über die Kamera. Weitere Neuerungen sind KI-gestützte Notizen, ein privates Journal, Schreibunterstützung in Gboard und Musikgenerierung aus Sprachaufnahmen. Käufer eines Pixel 10 Pro, Pro XL oder Fold erhalten zudem ein Jahr lang Zugang zu Google AI Pro mit Tools wie Imagen 4 und Veo 3.