Anzeige
Short

Google hat Magenta RealTime (Magenta RT) vorgestellt, ein Open-Source-Modell für die Erstellung und Steuerung von Musik in Echtzeit. Es hört auf Textbefehle, Audiobeispiele oder eine gewichtete Kombination aus Text und Audio. Magenta RT basiert auf einem 800 Millionen Parameter großen Transformer-Modell, das auf rund 190.000 Stunden vorwiegend instrumentaler Musik trainiert wurde. Eine technische Grenze: Das Modell kann nur auf die letzten zehn Sekunden der generierten Musik zugreifen, da sein Audio-Kontextfenster maximal zehn Sekunden umfasst.

Das Modell und der Quellcode sind auf GitHub und Hugging Face unter offenen Lizenzen verfügbar. Nutzer können das Modell aktuell kostenlos auf Colab TPUs testen, lokale Nutzung, eigene Anpassungen und das Paper sollen bald folgen.

Short

Thinking Machines Lab, das KI-Startup der ehemaligen OpenAI-Technikchefin Mira Murati, hat eine Finanzierungsrunde von zwei Milliarden Dollar abgeschlossen. Das erst sechs Monate alte Unternehmen wird mit zehn Milliarden Dollar bewertet. Ähnlich wie bei Safe Super Intelligence, dem Start-up des Ex-OpenAI-Chefwissenschaftlers Ilya Sutskever, das mit mehr als 30 Milliarden bewertet wird, basiert die Bewertung wohl in erster Linie auf den handelnden Personen: Beide Unternehmen haben keine öffentlich bekannten Produkte oder Umsätze, dafür aber einen namhaften Ruf. Anders als SSI verspricht Muratis Start-up keine Superintelligenz; stattdessen soll es um eine Mensch-KI-Zusammenarbeit und anpassbare KI-Systeme gehen. Murati verließ OpenAI im Herbst 2024 nach internen Streitigkeiten.

Anzeige
Anzeige
Short

Die BBC droht dem US-KI-Start-up Perplexity mit rechtlichen Schritten wegen angeblich unerlaubter Nutzung von BBC-Inhalten zum Training von KI-Systemen. In einem Schreiben fordert die BBC unter anderem das Ende des sogenannten "Scrapings", die Löschung gespeicherter Inhalte und eine finanzielle Entschädigung. Die BBC kritisiert, dass Perplexity Inhalte wortwörtlich übernommen habe, damit eigene Angebote unterlaufe und sein Standard-KI-Modell Sonar mit BBC-Inhalten trainiert zu haben. Laut BBC wiesen zudem 17 Prozent der Antworten des Perplexity-Chatbots in einer internen Analyse erhebliche Fehler auf. Perplexity weist die Vorwürfe zurück, ist aber bereits in Rechtsstreit mit anderen Medien und führt mit ausgewählten Verlagen Lizenzgespräche.

Anzeige
Anzeige
Short

Das KI-Startup Resemble AI hat mit Chatterbox ein quelloffenes Sprachsynthese-Modell veröffentlicht, das unter MIT-Lizenz verfügbar ist. Chatterbox kann Stimmen mit nur wenigen Sekunden Referenz-Audio klonen und erlaubt per Emotionsparameter die Steuerung des Sprechstils – etwa dramatisch oder monoton. Die Software läuft lokal und soll in Echtzeit mit unter 200 Millisekunden Latenz reagieren. Sie funktioniert laut Foren stabil auf Windows, Mac, Linux und mit nur 5–6 GB VRAM. Alle generierten Audiodateien enthalten ein kaum hörbares Wasserzeichen ("PerTh") zur Erkennung von KI-Stimmen. In internen Blindtests wurde Chatterbox laut Resemble AI häufiger als ElevenLabs bevorzugt. Das Modell richtet sich in erster Linie an Entwickler und scheint primär auf Englisch optimiert zu sein:

Decoder EN

Decoder DE

Eine Demo ist hier verfügbar.

Short

"The OpenAI Files" ist eine öffentlich zugängliche Plattform, die dokumentierte Kritik an OpenAIs Führungsstruktur, Unternehmenskultur und strategischer Ausrichtung bündelt. Veröffentlicht am 18. Juni 2025, enthält das Projekt Berichte ehemaliger Mitarbeitender, Analysen zu geplanten Umstrukturierungen sowie Einschätzungen zur Rolle von CEO Sam Altman. Im Zentrum steht die Frage, ob OpenAI seine gemeinnützige Mission zugunsten unbegrenzter Investorenrenditen aufgibt. Die Website bietet Einsicht in interne Dokumente und fordert Veränderungen in Transparenz, Sicherheit und Aufsicht. Ziel ist es laut Betreiber, eine öffentliche Debatte über OpenAIs Verantwortung bei der Entwicklung leistungsstarker KI-Modelle anzustoßen.

Anzeige
Anzeige
Short

OpenAI hat den Modus "ChatGPT Record" – vorerst nur für die macOS-Desktop-App und Pro-, Team-, Enterprise- und Edu-Nutzer – veröffentlicht. Damit lassen sich Audioaufnahmen etwa für Besprechungen oder Sprachnotizen aufzeichnen, transkribieren und automatisch als strukturierte Zusammenfassungen speichern. Die Funktion ist auf 120 Minuten pro Sitzung begrenzt und soll derzeit am besten auf Englisch funktionieren. Audioaufnahmen werden nach der Transkription gelöscht und laut Hersteller nicht fürs Modell-Training verwendet. Für Enterprise- und Edu-Nutzer gibt es die Funktion auch über die Compliance-API. Erstmals wurde die Funktion Anfang Juni vorgestellt.

Google News