Forscher von Google Deepmind, haben eine Methode namens JEST entwickelt, die das Training von KI-Modellen für die Bild- und Textverarbeitung deutlich effizienter macht.
Multimodale KI-Modelle lernen, Bilder und Texte miteinander zu verknüpfen. Dazu maximieren sie die Übereinstimmung von zusammengehörigen Bild-Text-Paaren und minimieren die Übereinstimmung von nicht zusammengehörigen Paaren. Traditionell werden die Trainingsbeispiele dafür zufällig oder nach individueller Relevanz für jeden Durchlauf in Batches ausgewählt.
Die Forscher argumentieren jedoch, dass die Qualität eines Batches nicht nur von der Summe der einzelnen Datenpunkte abhängt, sondern auch von deren Zusammensetzung. Deshalb haben sie einen Algorithmus entwickelt, der Teilmengen von Daten aus einem größeren "Super-Batch" nach ihrer gemeinsamen Lernfähigkeit auswählt.
JEST setzt auf KI-Modell für Datenauswahl
Um herauszufinden, welche Daten am lernfähigsten sind, verwendet JEST (Joint Example Selection Technique) zwei KI-Modelle: das Modell, das gerade trainiert wird, und ein bereits trainiertes Referenzmodell. Daten, die für das zu trainierende Modell schwierig, für das Referenzmodell jedoch einfach sind, werden als besonders lehrreich eingestuft.
Mit dieser Methode konnte das Team die Trainingszeit für bestimmte Aufgaben um den Faktor 13 verkürzen. Gleichzeitig wurde zehnmal weniger Rechenleistung benötigt, um die gleiche Leistung zu erzielen wie mit herkömmlichen Methoden.
Entscheidend ist laut den Forschern die Wahl des Referenzmodells, das auf einem kleinen, qualitativ hochwertigen Datensatz vortrainiert wird. Dessen Qualität begrenzt die möglichen Verbesserungen. Durch eine Vergrößerung des Referenzdatensatzes von 100 auf 600 Millionen Beispiele bei gleichbleibend hoher Qualität konnten die Ergebnisse weiter verbessert werden.
Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert
Um den erhöhten Rechenaufwand bei der Auswertung des "Super-Batch" zu reduzieren, führten die Wissenschaftler zudem eine Variante namens Flexi-JEST ein. Diese nutzt eine vereinfachte Version des Modells mit gröberer Bildauflösung zur Bewertung der Daten und trainiert parallel mit voller und reduzierter Auflösung.
Mit Flexi-JEST erreichte ein Modell nach 4 Milliarden Trainingsbeispielen in acht Standardaufgaben eine bessere durchschnittliche Leistung als das derzeit beste Modell SigLIP nach 40 Milliarden Beispielen. Dies entspricht einer Einsparung von 90 Prozent der Rechenoperationen.
Die Ergebnisse zeigen nach Ansicht der Forscher das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um viel größere, unstrukturierte Datenmengen zu filtern - ein Prozess, den sie als "Bootstrapping der Datenqualität" bezeichnen. Damit könnte JEST den Weg zu effizienteren KI-Modellen ebnen, die weniger Rechenleistung und Trainingsdaten benötigen.