Metas Fundamental AI Research (FAIR) Team hat neue Modelle vorgestellt, darunter Bild-zu-Text, Text-zu-Musik, Multi-Token-Vorhersage und eine Technik zur Erkennung von KI-generierter Sprache.
Meta hat einige seiner neuesten KI-Modelle veröffentlicht. Dazu gehören Chameleon, ein multimodales Modell, das sowohl Bilder als auch Text verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Modell zur Generierung von Musik aus Text und anderen Eingaben wie Akkorden oder Beats.
Chameleon wurde im Mai vorgestellt. Im Gegensatz zu den meisten großen Sprachmodellen, die in der Regel unimodale Ergebnisse liefern, kann das multimodale Chameleon jede Kombination von Text und Bildern als Eingabe verarbeiten und auch jede Kombination von Text und Bildern als Ausgabe verarbeiten. Meta veröffentlicht die 7B- und 34B-Varianten unter einer nicht-kommerziellen Lizenz nur für Forschungszwecke.
Kurz vor Chameleon zeigte Meta auch einen neuen Ansatz, um bessere und schnellere große Sprachmodelle zu entwickeln: die Multi-Token-Vorhersage. Das Team konnte zeigen, dass die Vorhersage mehrerer Token beim Training von KI-Sprachmodellen die Leistung, Kohärenz und Schlussfolgerungsfähigkeit verbessert. Meta veröffentlicht die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Lizenz, ausschließlich für Forschungszwecke.
Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache
Das Unternehmen veröffentlicht auch das Text-to-Music-Modell JASCO. Dieses akzeptiert neben Text auch verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musikausgabe zu verbessern.
Mit AudioSeal veröffentlicht Meta eine Audio-Wasserzeichen-Technologie, die KI-generierter Sprache auch in längeren Audio-Segmenten erkennen und markieren kann. Im Gegensatz zu anderen Methoden soll die Methode bis zu 485-mal schneller sein. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht.