Deepmind macht KI-Training mit JEST bis zu 13-mal schneller und 10-mal effizienter

Midjourney prompted by THE DECODER

Forscher von Google Deepmind, haben eine Methode namens JEST entwickelt, die das Training von KI-Modellen für die Bild- und Textverarbeitung deutlich effizienter macht.

Multimodale KI-Modelle lernen, Bilder und Texte miteinander zu verknüpfen. Dazu maximieren sie die Übereinstimmung von zusammengehörigen Bild-Text-Paaren und minimieren die Übereinstimmung von nicht zusammengehörigen Paaren. Traditionell werden die Trainingsbeispiele dafür zufällig oder nach individueller Relevanz für jeden Durchlauf in Batches ausgewählt.

Die Forscher argumentieren jedoch, dass die Qualität eines Batches nicht nur von der Summe der einzelnen Datenpunkte abhängt, sondern auch von deren Zusammensetzung. Deshalb haben sie einen Algorithmus entwickelt, der Teilmengen von Daten aus einem größeren "Super-Batch" nach ihrer gemeinsamen Lernfähigkeit auswählt.

JEST setzt auf KI-Modell für Datenauswahl

Um herauszufinden, welche Daten am lernfähigsten sind, verwendet JEST (Joint Example Selection Technique) zwei KI-Modelle: das Modell, das gerade trainiert wird, und ein bereits trainiertes Referenzmodell. Daten, die für das zu trainierende Modell schwierig, für das Referenzmodell jedoch einfach sind, werden als besonders lehrreich eingestuft.

Mit dieser Methode konnte das Team die Trainingszeit für bestimmte Aufgaben um den Faktor 13 verkürzen. Gleichzeitig wurde zehnmal weniger Rechenleistung benötigt, um die gleiche Leistung zu erzielen wie mit herkömmlichen Methoden.

Entscheidend ist laut den Forschern die Wahl des Referenzmodells, das auf einem kleinen, qualitativ hochwertigen Datensatz vortrainiert wird. Dessen Qualität begrenzt die möglichen Verbesserungen. Durch eine Vergrößerung des Referenzdatensatzes von 100 auf 600 Millionen Beispiele bei gleichbleibend hoher Qualität konnten die Ergebnisse weiter verbessert werden.

Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert

Um den erhöhten Rechenaufwand bei der Auswertung des "Super-Batch" zu reduzieren, führten die Wissenschaftler zudem eine Variante namens Flexi-JEST ein. Diese nutzt eine vereinfachte Version des Modells mit gröberer Bildauflösung zur Bewertung der Daten und trainiert parallel mit voller und reduzierter Auflösung.

Mit Flexi-JEST erreichte ein Modell nach 4 Milliarden Trainingsbeispielen in acht Standardaufgaben eine bessere durchschnittliche Leistung als das derzeit beste Modell SigLIP nach 40 Milliarden Beispielen. Dies entspricht einer Einsparung von 90 Prozent der Rechenoperationen.

Die Ergebnisse zeigen nach Ansicht der Forscher das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um viel größere, unstrukturierte Datenmengen zu filtern - ein Prozess, den sie als "Bootstrapping der Datenqualität" bezeichnen. Damit könnte JEST den Weg zu effizienteren KI-Modellen ebnen, die weniger Rechenleistung und Trainingsdaten benötigen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Deepmind macht KI-Training mit JEST bis zu 13-mal schneller und 10-mal effizienter

JEST setzt auf KI-Modell für Datenauswahl

Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Google launcht Opal: KI-Mini-Apps per natürlicher Sprache ohne Code erstellen

Google testet „Web Guide“: KI-Suche stellt automatisch relevante Zusatzfragen

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Deepmind macht KI-Training mit JEST bis zu 13-mal schneller und 10-mal effizienter

JEST setzt auf KI-Modell für Datenauswahl

Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert

Artikel teilen

Bankverbindung