Skip to content

Deepmind macht KI-Training mit JEST bis zu 13-mal schneller und 10-mal effizienter

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Google Deepmind Forscher haben eine Methode namens JEST entwickelt, die das Training von multimodalen KI-Modellen für Bild- und Textverarbeitung effizienter macht, indem sie Teilmengen von Daten nach ihrer gemeinsamen Lernfähigkeit auswählt.
  • JEST verwendet zwei KI-Modelle - das zu trainierende Modell und ein vortrainiertes Referenzmodell - um herauszufinden, welche Daten besonders lehrreich sind. Damit konnte die Trainingszeit um Faktor 13 verkürzt und die benötigte Rechenleistung um 90% reduziert werden.
  • Die Variante Flexi-JEST nutzt eine vereinfachte Version des Modells zur Datenbewertung und erreichte mit nur 10% der Trainingsdaten eine bessere Leistung als das derzeit führende Modell. Die Forscher sehen darin das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um große, unstrukturierte Datenmengen zu filtern.

Forscher von Google Deepmind, haben eine Methode namens JEST entwickelt, die das Training von KI-Modellen für die Bild- und Textverarbeitung deutlich effizienter macht.

Multimodale KI-Modelle lernen, Bilder und Texte miteinander zu verknüpfen. Dazu maximieren sie die Übereinstimmung von zusammengehörigen Bild-Text-Paaren und minimieren die Übereinstimmung von nicht zusammengehörigen Paaren. Traditionell werden die Trainingsbeispiele dafür zufällig oder nach individueller Relevanz für jeden Durchlauf in Batches ausgewählt.

Die Forscher argumentieren jedoch, dass die Qualität eines Batches nicht nur von der Summe der einzelnen Datenpunkte abhängt, sondern auch von deren Zusammensetzung. Deshalb haben sie einen Algorithmus entwickelt, der Teilmengen von Daten aus einem größeren "Super-Batch" nach ihrer gemeinsamen Lernfähigkeit auswählt.

JEST setzt auf KI-Modell für Datenauswahl

Um herauszufinden, welche Daten am lernfähigsten sind, verwendet JEST (Joint Example Selection Technique) zwei KI-Modelle: das Modell, das gerade trainiert wird, und ein bereits trainiertes Referenzmodell. Daten, die für das zu trainierende Modell schwierig, für das Referenzmodell jedoch einfach sind, werden als besonders lehrreich eingestuft.

Mit dieser Methode konnte das Team die Trainingszeit für bestimmte Aufgaben um den Faktor 13 verkürzen. Gleichzeitig wurde zehnmal weniger Rechenleistung benötigt, um die gleiche Leistung zu erzielen wie mit herkömmlichen Methoden.

Entscheidend ist laut den Forschern die Wahl des Referenzmodells, das auf einem kleinen, qualitativ hochwertigen Datensatz vortrainiert wird. Dessen Qualität begrenzt die möglichen Verbesserungen. Durch eine Vergrößerung des Referenzdatensatzes von 100 auf 600 Millionen Beispiele bei gleichbleibend hoher Qualität konnten die Ergebnisse weiter verbessert werden.

Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert

Um den erhöhten Rechenaufwand bei der Auswertung des "Super-Batch" zu reduzieren, führten die Wissenschaftler zudem eine Variante namens Flexi-JEST ein. Diese nutzt eine vereinfachte Version des Modells mit gröberer Bildauflösung zur Bewertung der Daten und trainiert parallel mit voller und reduzierter Auflösung.

Mit Flexi-JEST erreichte ein Modell nach 4 Milliarden Trainingsbeispielen in acht Standardaufgaben eine bessere durchschnittliche Leistung als das derzeit beste Modell SigLIP nach 40 Milliarden Beispielen. Dies entspricht einer Einsparung von 90 Prozent der Rechenoperationen.

Die Ergebnisse zeigen nach Ansicht der Forscher das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um viel größere, unstrukturierte Datenmengen zu filtern - ein Prozess, den sie als "Bootstrapping der Datenqualität" bezeichnen. Damit könnte JEST den Weg zu effizienteren KI-Modellen ebnen, die weniger Rechenleistung und Trainingsdaten benötigen.

Source: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren