Inhalt
summary Zusammenfassung

Metas Fundamental AI Research (FAIR) Team hat neue Modelle vorgestellt, darunter Bild-zu-Text, Text-zu-Musik, Multi-Token-Vorhersage und eine Technik zur Erkennung von KI-generierter Sprache.

Meta hat einige seiner neuesten KI-Modelle veröffentlicht. Dazu gehören Chameleon, ein multimodales Modell, das sowohl Bilder als auch Text verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Modell zur Generierung von Musik aus Text und anderen Eingaben wie Akkorden oder Beats.

Chameleon wurde im Mai vorgestellt. Im Gegensatz zu den meisten großen Sprachmodellen, die in der Regel unimodale Ergebnisse liefern, kann das multimodale Chameleon jede Kombination von Text und Bildern als Eingabe verarbeiten und auch jede Kombination von Text und Bildern als Ausgabe verarbeiten. Meta veröffentlicht die 7B- und 34B-Varianten unter einer nicht-kommerziellen Lizenz nur für Forschungszwecke.

Kurz vor Chameleon zeigte Meta auch einen neuen Ansatz, um bessere und schnellere große Sprachmodelle zu entwickeln: die Multi-Token-Vorhersage. Das Team konnte zeigen, dass die Vorhersage mehrerer Token beim Training von KI-Sprachmodellen die Leistung, Kohärenz und Schlussfolgerungsfähigkeit verbessert. Meta veröffentlicht die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Lizenz, ausschließlich für Forschungszwecke.

Anzeige
Anzeige

Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache

Das Unternehmen veröffentlicht auch das Text-to-Music-Modell JASCO. Dieses akzeptiert neben Text auch verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musikausgabe zu verbessern.

Mit AudioSeal veröffentlicht Meta eine Audio-Wasserzeichen-Technologie, die KI-generierter Sprache auch in längeren Audio-Segmenten erkennen und markieren kann. Im Gegensatz zu anderen Methoden soll die Methode bis zu 485-mal schneller sein. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta's Fundamental AI Research (FAIR) Team hat neue Modelle veröffentlicht, darunter Chameleon, das multimodal Text und Bilder verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Text-zu-Musik-Modell.
  • Chameleon kann jede Kombination von Text und Bildern als Ein- und Ausgabe verarbeiten. Die Multi-Token-Vorhersage soll die Leistung, Kohärenz und Schlussfolgerungsfähigkeit von KI-Sprachmodellen verbessern. JASCO akzeptiert neben Text auch Eingaben wie Akkorde oder Beats.
  • Mit AudioSeal stellt Meta eine Audio-Wasserzeichen-Technologie vor, die speziell für die lokalisierte Verifizierung von KI-generierter Sprache entwickelt wurde und eine schnellere und effizientere Erkennung als herkömmliche Methoden ermöglichen soll.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!