Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forschende untersucht, ob Multimodalität KI-Modelle auch dann leistungsfähiger macht, wenn die Daten nicht in direktem Zusammenhang stehen.

Multimodale KI-Modelle wie Gemini von Google können Text, Bild und Ton verarbeiten. Im Gegensatz zu solchen Modellen, die oft gepaarte Daten aus verschiedenen Modalitäten verwenden, zum Beispiel Bilder und zugehörige Textbeschreibungen, konzentriert sich Multimodal Pathway auf Szenarien, in denen die Datensätze aus verschiedenen Modalitäten stammen, aber keine direkte Relevanz zueinander haben.

Multimodal Pathway Transformer findet positiven Effekt

Das Team der Chinese University of Hong Kong und des Tencent AI Lab untersuchte konkret, ob sich die Leistung von KI-Modellen für eine bestimmte Modalität wie Bilderkennung verbessert, wenn zusätzlich Daten aus einer anderen, eigentlich irrelevanten Modalität wie Audio oder Punktwolken verwendet werden.

Dazu entwickelten die Forscher den Multimodal Pathway Transformer (M2PT), bei dem ein spezifischer Tokenizer und ein spezifischer Kopf (Head) für die Zielmodalität mit Transformer-Blöcken eines Hilfsmodells, das mit Daten einer anderen Modalität trainiert wurde, über "Cross-Modal Re-parameterization" verknüpft werden.

Anzeige
Anzeige

Cross-Modal Re-parameterization ist eine Methode, bei der jede lineare Schicht in den Transformer-Blöcken des Zielmodells mit ihrem Gegenstück im Hilfsmodell verbunden wird. Die Ausgaben beider Schichten werden addiert. Dieser Ansatz verursacht marginale zusätzliche Trainingskosten und keine zusätzlichen Inferenzkosten, was ihn für die praktische Anwendung besonders attraktiv macht.

Die Anwendung des multimodalen Pfadansatzes führte zu signifikanten und konsistenten Leistungsverbesserungen über verschiedene Modalitäten hinweg. Praktische Experimente, die von den Entwicklern durchgeführt wurden, haben zu Leistungsverbesserungen in den Bereichen Bild-, Punktwolken-, Video- und Audioerkennung geführt.

KI-Modell profitiert von komplementärem Wissen

Warum funktioniert das? Die Forscher vermuten, dass das Modell, das auf Daten einer bestimmten Modalität trainiert wurde, Wissen kodiert hat, von dem ein anderer Modellierungsprozess, dessen Eingabesequenzen aus einer anderen Modalität stammen, profitieren kann.

Dieses "modality-complementary knowledge" oder modalitätsspezifische komplementäre Wissen scheint zu existieren und übertragbar zu sein, selbst wenn die Daten zwischen den Modalitäten irrelevant sind.

Dennoch bleibt eine theoretische Begründung für die beobachteten Verbesserungen offen. Diese könnte zu einem tieferen Verständnis des Mechanismus und neuronaler Netzwerke im Allgemeinen führen und ist nach Ansicht des Teams Gegenstand zukünftiger Forschung.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Chinese University of Hong Kong und des Tencent AI Lab untersuchten, ob Multimodalität KI-Modelle leistungsfähiger macht, selbst wenn die Daten aus verschiedenen Modalitäten nicht direkt miteinander verbunden sind.
  • Sie entwickelten den Multimodal Pathway Transformer (M2PT), der über "Cross-Modal Re-parameterization" Daten aus verschiedenen Modalitäten verknüpft und signifikante Leistungsverbesserungen in Bild-, Punktwolken-, Video- und Audioerkennung zeigte.
  • Die Forscher vermuten, dass das KI-Modell von komplementärem Wissen profitiert, das in verschiedenen Modalitäten kodiert ist, auch wenn die Daten zwischen den Modalitäten irrelevant sind. Eine theoretische Begründung für diese Verbesserungen ist jedoch noch offen und Gegenstand zukünftiger Forschung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!