Skip to content

Meta veröffentlicht neue KI-Modelle für Text, Bild und Audio

Image description
Meta AI

Kurz & Knapp

  • Meta's Fundamental AI Research (FAIR) Team hat neue Modelle veröffentlicht, darunter Chameleon, das multimodal Text und Bilder verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Text-zu-Musik-Modell.
  • Chameleon kann jede Kombination von Text und Bildern als Ein- und Ausgabe verarbeiten. Die Multi-Token-Vorhersage soll die Leistung, Kohärenz und Schlussfolgerungsfähigkeit von KI-Sprachmodellen verbessern. JASCO akzeptiert neben Text auch Eingaben wie Akkorde oder Beats.
  • Mit AudioSeal stellt Meta eine Audio-Wasserzeichen-Technologie vor, die speziell für die lokalisierte Verifizierung von KI-generierter Sprache entwickelt wurde und eine schnellere und effizientere Erkennung als herkömmliche Methoden ermöglichen soll.

Metas Fundamental AI Research (FAIR) Team hat neue Modelle vorgestellt, darunter Bild-zu-Text, Text-zu-Musik, Multi-Token-Vorhersage und eine Technik zur Erkennung von KI-generierter Sprache.

Meta hat einige seiner neuesten KI-Modelle veröffentlicht. Dazu gehören Chameleon, ein multimodales Modell, das sowohl Bilder als auch Text verarbeiten und generieren kann, ein Multi-Token-Vorhersagemodell für effizienteres Sprachtraining und JASCO, ein Modell zur Generierung von Musik aus Text und anderen Eingaben wie Akkorden oder Beats.

Chameleon wurde im Mai vorgestellt. Im Gegensatz zu den meisten großen Sprachmodellen, die in der Regel unimodale Ergebnisse liefern, kann das multimodale Chameleon jede Kombination von Text und Bildern als Eingabe verarbeiten und auch jede Kombination von Text und Bildern als Ausgabe verarbeiten. Meta veröffentlicht die 7B- und 34B-Varianten unter einer nicht-kommerziellen Lizenz nur für Forschungszwecke.

Kurz vor Chameleon zeigte Meta auch einen neuen Ansatz, um bessere und schnellere große Sprachmodelle zu entwickeln: die Multi-Token-Vorhersage. Das Team konnte zeigen, dass die Vorhersage mehrerer Token beim Training von KI-Sprachmodellen die Leistung, Kohärenz und Schlussfolgerungsfähigkeit verbessert. Meta veröffentlicht die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Lizenz, ausschließlich für Forschungszwecke.

Meta veröffentlicht Audio-Modell und Wasserzeichen für KI-Sprache

Das Unternehmen veröffentlicht auch das Text-to-Music-Modell JASCO. Dieses akzeptiert neben Text auch verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musikausgabe zu verbessern.

Mit AudioSeal veröffentlicht Meta eine Audio-Wasserzeichen-Technologie, die KI-generierter Sprache auch in längeren Audio-Segmenten erkennen und markieren kann. Im Gegensatz zu anderen Methoden soll die Methode bis zu 485-mal schneller sein. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht.

Source: Meta

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren