KI-Modelle werden durch Daten besser, die nichts mit ihrer Aufgabe zu tun haben

DALL-E 3 prompted by THE DECODER

Forschende untersucht, ob Multimodalität KI-Modelle auch dann leistungsfähiger macht, wenn die Daten nicht in direktem Zusammenhang stehen.

Multimodale KI-Modelle wie Gemini von Google können Text, Bild und Ton verarbeiten. Im Gegensatz zu solchen Modellen, die oft gepaarte Daten aus verschiedenen Modalitäten verwenden, zum Beispiel Bilder und zugehörige Textbeschreibungen, konzentriert sich Multimodal Pathway auf Szenarien, in denen die Datensätze aus verschiedenen Modalitäten stammen, aber keine direkte Relevanz zueinander haben.

Multimodal Pathway Transformer findet positiven Effekt

Das Team der Chinese University of Hong Kong und des Tencent AI Lab untersuchte konkret, ob sich die Leistung von KI-Modellen für eine bestimmte Modalität wie Bilderkennung verbessert, wenn zusätzlich Daten aus einer anderen, eigentlich irrelevanten Modalität wie Audio oder Punktwolken verwendet werden.

Dazu entwickelten die Forscher den Multimodal Pathway Transformer (M2PT), bei dem ein spezifischer Tokenizer und ein spezifischer Kopf (Head) für die Zielmodalität mit Transformer-Blöcken eines Hilfsmodells, das mit Daten einer anderen Modalität trainiert wurde, über "Cross-Modal Re-parameterization" verknüpft werden.

Cross-Modal Re-parameterization ist eine Methode, bei der jede lineare Schicht in den Transformer-Blöcken des Zielmodells mit ihrem Gegenstück im Hilfsmodell verbunden wird. Die Ausgaben beider Schichten werden addiert. Dieser Ansatz verursacht marginale zusätzliche Trainingskosten und keine zusätzlichen Inferenzkosten, was ihn für die praktische Anwendung besonders attraktiv macht.

Die Anwendung des multimodalen Pfadansatzes führte zu signifikanten und konsistenten Leistungsverbesserungen über verschiedene Modalitäten hinweg. Praktische Experimente, die von den Entwicklern durchgeführt wurden, haben zu Leistungsverbesserungen in den Bereichen Bild-, Punktwolken-, Video- und Audioerkennung geführt.

KI-Modell profitiert von komplementärem Wissen

Warum funktioniert das? Die Forscher vermuten, dass das Modell, das auf Daten einer bestimmten Modalität trainiert wurde, Wissen kodiert hat, von dem ein anderer Modellierungsprozess, dessen Eingabesequenzen aus einer anderen Modalität stammen, profitieren kann.

Dieses "modality-complementary knowledge" oder modalitätsspezifische komplementäre Wissen scheint zu existieren und übertragbar zu sein, selbst wenn die Daten zwischen den Modalitäten irrelevant sind.

Dennoch bleibt eine theoretische Begründung für die beobachteten Verbesserungen offen. Diese könnte zu einem tieferen Verständnis des Mechanismus und neuronaler Netzwerke im Allgemeinen führen und ist nach Ansicht des Teams Gegenstand zukünftiger Forschung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

KI-Modelle werden durch Daten besser, die nichts mit ihrer Aufgabe zu tun haben

Multimodal Pathway Transformer findet positiven Effekt

KI-Modell profitiert von komplementärem Wissen

Tencent schafft eine Milliarde KI-Persönlichkeiten als Multiplikator für synthetische Daten

Microsoft Bing kopiert Googles Search Generative Experience mit neuer KI-Suchfunktion

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

DiagnosisGPT schlägt GPT-4 und Claude 3 Opus bei medizinischen Diagnosen

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

KI-Modelle werden durch Daten besser, die nichts mit ihrer Aufgabe zu tun haben

Multimodal Pathway Transformer findet positiven Effekt

KI-Modell profitiert von komplementärem Wissen

Artikel teilen

Bankverbindung