Metas neues KI-Modell SAM Audio lässt Nutzer Töne in Videos anklicken
Kurz & Knapp
- Meta stellt SAM Audio vor, ein KI-Modell, das einzelne Tonquellen aus Mischungen trennt – gesteuert per Text, Klick ins Video oder Zeitmarkierung.
- Das System verbindet Bild- und Toninformationen, um gezielt Stimmen, Instrumente oder Geräusche aus realen Aufnahmen herauszufiltern.
- Die Qualität wird mit neuen Benchmarks und einem automatischen Bewertungsmodell geprüft, allerdings fehlen Audio-Prompts und ähnliche Klänge sind noch schwer zu isolieren.
Nach Bildern und 3D-Modellen wendet Meta sein "Segment Anything"-Konzept nun auf Geräusche an. Das neue KI-Modell SAM Audio soll einzelne Tonquellen aus komplexen Mischungen isolieren, allein gesteuert durch Text, Zeitmarkierungen oder visuelle Klicks.
Das System ist laut Meta das erste vereinheitlichte Modell, das diese Aufgabe über verschiedene Eingabemethoden hinweg bewältigen kann. Anstatt für jeden Anwendungsfall ein separates Tool zu nutzen, soll SAM Audio flexibel auf unterschiedliche Befehlsarten reagieren.
Die Steuerung erfolgt dabei über drei Methoden, die auch kombiniert werden können. Nutzer können Textbefehle wie "Hundegebell" oder "Singstimme" eingeben, um diese Elemente zu isolieren. Alternativ ist es möglich, in einem Video direkt auf ein Objekt oder eine Person zu klicken, um die dazugehörige Tonspur hervorzuheben. Als dritte Option lassen sich über Zeitmarkierungen, sogenannte Span-Prompts, spezifische Segmente definieren, in denen ein Zielgeräusch vorkommt.
Meta sieht Anwendungsmöglichkeiten in der Musikproduktion, beim Podcasting oder in der Filmbearbeitung, etwa um Verkehrslärm aus einer Außenaufnahme zu filtern oder Instrumente in einer Aufnahme zu separieren.
Perception Encoder Audiovisual verknüpft Bild und Ton
Technisch basiert SAM Audio auf einem generativen Modellierungsrahmen, der einen sogenannten Flow-Matching-Diffusion-Transformer nutzt. Dieser verarbeitet die Audiomischung zusammen mit den Eingabebefehlen, um die gewünschte Audiospur sowie die Restgeräusche zu generieren.
Eine Schlüsselkomponente ist dabei der Perception Encoder Audiovisual (PE-AV). Dieses Modell baut auf dem im April veröffentlichten Perception Encoder auf und erweitert dessen Computer-Vision-Fähigkeiten auf den Audiobereich. Meta beschreibt PE-AV metaphorisch als die "Ohren", die dem "Gehirn" SAM Audio zuarbeiten, um komplexe Segmentierungsaufgaben zu lösen.
Das System extrahiert Merkmale auf Einzelbildebene und gleicht sie zeitlich präzise mit den Audiosignalen ab. Diese exakte zeitliche Ausrichtung ermöglicht es SAM Audio, Tonquellen zu trennen, die visuell verankert sind – etwa einen Sprecher, der im Bild zu sehen ist. Ohne diese Synchronisation würde dem Modell das feine visuelle Verständnis fehlen, um Töne flexibel und wahrnehmungsgetreu zu isolieren. PE-AV wurde laut Meta mit mehr als 100 Millionen Videos trainiert.
Das Modell soll effizient skalieren und in Varianten von 500 Millionen bis 3 Milliarden Parametern verfügbar sein. Die Verarbeitungsgeschwindigkeit liegt dabei laut den Entwicklern über Echtzeit-Niveau.
Neue Benchmarks für Audio-Trennung
Um die Leistung des Modells zu bewerten, führt Meta zwei neue Werkzeuge ein: SAM Audio-Bench und SAM Audio Judge. Herkömmliche Messverfahren für Audio-Trennung benötigen oft saubere Referenzspuren zum Vergleich, was in realen Szenarien selten gegeben ist.
SAM Audio Judge soll hier als automatisches Bewertungsmodell dienen, das die Qualität der Audio-Segmentierung ohne Referenzspur einschätzt. Es wurde entwickelt, um die menschliche Wahrnehmung zu imitieren, und bewertet Kriterien wie Wiedergabetreue und Präzision. Das ist besonders nützlich für Benchmarks, die echte Hörerlebnisse widerspiegeln sollen.
Der Benchmark SAM Audio-Bench deckt verschiedene Audio-Domänen wie Sprache, Musik und Soundeffekte ab. Im Gegensatz zu früheren Datensätzen nutzt er reale Audio- und Videoquellen anstelle von rein synthetischen Mischungen, um eine realistischere Bewertungsgrundlage zu schaffen.
Noch keine Audio-Prompts
SAM Audio akzeptiert derzeit noch keine Audiodateien als Pro. Auch die Trennung sehr ähnlicher Audio-Ereignisse, wie die Isolierung eines einzelnen Sängers aus einem Chor oder eines spezifischen Instruments aus einem Orchester, bleibt laut Meta eine Herausforderung.
Meta stellt das Modell im Segment Anything Playground zum Ausprobieren bereit und veröffentlicht Code und Gewichte. Zudem kooperiert der Konzern mit Starkey, einem US-Hersteller von Hörgeräten, sowie dem Start-up-Inkubator 2gether-International, um Einsatzmöglichkeiten im Bereich Barrierefreiheit zu erkunden.
Vor kurzem präsentierte Meta mit SAM 3 die dritte Generation seines Segmentierungsmodells, das Bilder und Videos über offene Text-Prompts statt starrer Kategorien analysiert. Das System führt die Promptable Concept Segmentation ein, um visuelle Konzepte flexibel zu isolieren. Parallel dazu erschien SAM 3D, das aus einfachen 2D-Aufnahmen räumliche Objekte und menschliche Posen rekonstruiert und so das Verständnis der KI für die physische Welt erweitert.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren