KI-Modelle werden durch Daten besser, die nichts mit ihrer Aufgabe zu tun haben

4. Februar 2024

DALL-E 3 prompted by THE DECODER

Forschende untersucht, ob Multimodalität KI-Modelle auch dann leistungsfähiger macht, wenn die Daten nicht in direktem Zusammenhang stehen.

Multimodale KI-Modelle wie Gemini von Google können Text, Bild und Ton verarbeiten. Im Gegensatz zu solchen Modellen, die oft gepaarte Daten aus verschiedenen Modalitäten verwenden, zum Beispiel Bilder und zugehörige Textbeschreibungen, konzentriert sich Multimodal Pathway auf Szenarien, in denen die Datensätze aus verschiedenen Modalitäten stammen, aber keine direkte Relevanz zueinander haben.

Multimodal Pathway Transformer findet positiven Effekt

Das Team der Chinese University of Hong Kong und des Tencent AI Lab untersuchte konkret, ob sich die Leistung von KI-Modellen für eine bestimmte Modalität wie Bilderkennung verbessert, wenn zusätzlich Daten aus einer anderen, eigentlich irrelevanten Modalität wie Audio oder Punktwolken verwendet werden.

Dazu entwickelten die Forscher den Multimodal Pathway Transformer (M2PT), bei dem ein spezifischer Tokenizer und ein spezifischer Kopf (Head) für die Zielmodalität mit Transformer-Blöcken eines Hilfsmodells, das mit Daten einer anderen Modalität trainiert wurde, über "Cross-Modal Re-parameterization" verknüpft werden.

Cross-Modal Re-parameterization ist eine Methode, bei der jede lineare Schicht in den Transformer-Blöcken des Zielmodells mit ihrem Gegenstück im Hilfsmodell verbunden wird. Die Ausgaben beider Schichten werden addiert. Dieser Ansatz verursacht marginale zusätzliche Trainingskosten und keine zusätzlichen Inferenzkosten, was ihn für die praktische Anwendung besonders attraktiv macht.

Die Anwendung des multimodalen Pfadansatzes führte zu signifikanten und konsistenten Leistungsverbesserungen über verschiedene Modalitäten hinweg. Praktische Experimente, die von den Entwicklern durchgeführt wurden, haben zu Leistungsverbesserungen in den Bereichen Bild-, Punktwolken-, Video- und Audioerkennung geführt.

KI-Modell profitiert von komplementärem Wissen

Warum funktioniert das? Die Forscher vermuten, dass das Modell, das auf Daten einer bestimmten Modalität trainiert wurde, Wissen kodiert hat, von dem ein anderer Modellierungsprozess, dessen Eingabesequenzen aus einer anderen Modalität stammen, profitieren kann.

Dieses "modality-complementary knowledge" oder modalitätsspezifische komplementäre Wissen scheint zu existieren und übertragbar zu sein, selbst wenn die Daten zwischen den Modalitäten irrelevant sind.

Dennoch bleibt eine theoretische Begründung für die beobachteten Verbesserungen offen. Diese könnte zu einem tieferen Verständnis des Mechanismus und neuronaler Netzwerke im Allgemeinen führen und ist nach Ansicht des Teams Gegenstand zukünftiger Forschung.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

KI-Modelle werden durch Daten besser, die nichts mit ihrer Aufgabe zu tun haben

Multimodal Pathway Transformer findet positiven Effekt

KI-Modell profitiert von komplementärem Wissen

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.