Meta veröffentlicht neue KI-Modelle für Text, Bild und Audio

Metas Fundamental AI Research (FAIR) Team hat neue Modelle vorgestellt, darunter Bild-zu-Text, Text-zu-Musik, Multi-Token-Vorhersage und eine Technik zur Erkennung von KI-generierter Sprache.

Meta hat einige seiner neuesten KI-Modelle veröffentlicht. Dazu gehören Chameleon, ein multimodales Modell, das sowohl Bilder als auch Text verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Modell zur Generierung von Musik aus Text und anderen Eingaben wie Akkorden oder Beats.

Chameleon wurde im Mai vorgestellt. Im Gegensatz zu den meisten großen Sprachmodellen, die in der Regel unimodale Ergebnisse liefern, kann das multimodale Chameleon jede Kombination von Text und Bildern als Eingabe verarbeiten und auch jede Kombination von Text und Bildern als Ausgabe verarbeiten. Meta veröffentlicht die 7B- und 34B-Varianten unter einer nicht-kommerziellen Lizenz nur für Forschungszwecke.

Kurz vor Chameleon zeigte Meta auch einen neuen Ansatz, um bessere und schnellere große Sprachmodelle zu entwickeln: die Multi-Token-Vorhersage. Das Team konnte zeigen, dass die Vorhersage mehrerer Token beim Training von KI-Sprachmodellen die Leistung, Kohärenz und Schlussfolgerungsfähigkeit verbessert. Meta veröffentlicht die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Lizenz, ausschließlich für Forschungszwecke.

Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache

Das Unternehmen veröffentlicht auch das Text-to-Music-Modell JASCO. Dieses akzeptiert neben Text auch verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musikausgabe zu verbessern.

Mit AudioSeal veröffentlicht Meta eine Audio-Wasserzeichen-Technologie, die KI-generierter Sprache auch in längeren Audio-Segmenten erkennen und markieren kann. Im Gegensatz zu anderen Methoden soll die Methode bis zu 485-mal schneller sein. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta veröffentlicht neue KI-Modelle für Text, Bild und Audio

Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache

Meta kauft Audio-KI-Start-up und bündelt Superintelligence-Offensive für Llama 4.5

ChatGPT-Mitentwickler wechselt als Chief Scientist zu Metas Superintelligence Lab

Meta will KI-Verhaltenskodex der EU nicht unterzeichnen - OpenAI schon

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Meta veröffentlicht neue KI-Modelle für Text, Bild und Audio

Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache

Meta kauft Audio-KI-Start-up und bündelt Superintelligence-Offensive für Llama 4.5

ChatGPT-Mitentwickler wechselt als Chief Scientist zu Metas Superintelligence Lab

Meta will KI-Verhaltenskodex der EU nicht unterzeichnen - OpenAI schon