Inhalt
summary Zusammenfassung

Forscher von Google Deepmind, haben eine Methode namens JEST entwickelt, die das Training von KI-Modellen für die Bild- und Textverarbeitung deutlich effizienter macht.

Anzeige

Multimodale KI-Modelle lernen, Bilder und Texte miteinander zu verknüpfen. Dazu maximieren sie die Übereinstimmung von zusammengehörigen Bild-Text-Paaren und minimieren die Übereinstimmung von nicht zusammengehörigen Paaren. Traditionell werden die Trainingsbeispiele dafür zufällig oder nach individueller Relevanz für jeden Durchlauf in Batches ausgewählt.

Die Forscher argumentieren jedoch, dass die Qualität eines Batches nicht nur von der Summe der einzelnen Datenpunkte abhängt, sondern auch von deren Zusammensetzung. Deshalb haben sie einen Algorithmus entwickelt, der Teilmengen von Daten aus einem größeren "Super-Batch" nach ihrer gemeinsamen Lernfähigkeit auswählt.

JEST setzt auf KI-Modell für Datenauswahl

Um herauszufinden, welche Daten am lernfähigsten sind, verwendet JEST (Joint Example Selection Technique) zwei KI-Modelle: das Modell, das gerade trainiert wird, und ein bereits trainiertes Referenzmodell. Daten, die für das zu trainierende Modell schwierig, für das Referenzmodell jedoch einfach sind, werden als besonders lehrreich eingestuft.

Anzeige
Anzeige

Mit dieser Methode konnte das Team die Trainingszeit für bestimmte Aufgaben um den Faktor 13 verkürzen. Gleichzeitig wurde zehnmal weniger Rechenleistung benötigt, um die gleiche Leistung zu erzielen wie mit herkömmlichen Methoden.

Entscheidend ist laut den Forschern die Wahl des Referenzmodells, das auf einem kleinen, qualitativ hochwertigen Datensatz vortrainiert wird. Dessen Qualität begrenzt die möglichen Verbesserungen. Durch eine Vergrößerung des Referenzdatensatzes von 100 auf 600 Millionen Beispiele bei gleichbleibend hoher Qualität konnten die Ergebnisse weiter verbessert werden.

Flexi-JEST erreicht mit 10 Prozent der Trainingsdaten Spitzenwert

Um den erhöhten Rechenaufwand bei der Auswertung des "Super-Batch" zu reduzieren, führten die Wissenschaftler zudem eine Variante namens Flexi-JEST ein. Diese nutzt eine vereinfachte Version des Modells mit gröberer Bildauflösung zur Bewertung der Daten und trainiert parallel mit voller und reduzierter Auflösung.

Mit Flexi-JEST erreichte ein Modell nach 4 Milliarden Trainingsbeispielen in acht Standardaufgaben eine bessere durchschnittliche Leistung als das derzeit beste Modell SigLIP nach 40 Milliarden Beispielen. Dies entspricht einer Einsparung von 90 Prozent der Rechenoperationen.

Die Ergebnisse zeigen nach Ansicht der Forscher das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um viel größere, unstrukturierte Datenmengen zu filtern - ein Prozess, den sie als "Bootstrapping der Datenqualität" bezeichnen. Damit könnte JEST den Weg zu effizienteren KI-Modellen ebnen, die weniger Rechenleistung und Trainingsdaten benötigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind Forscher haben eine Methode namens JEST entwickelt, die das Training von multimodalen KI-Modellen für Bild- und Textverarbeitung effizienter macht, indem sie Teilmengen von Daten nach ihrer gemeinsamen Lernfähigkeit auswählt.
  • JEST verwendet zwei KI-Modelle - das zu trainierende Modell und ein vortrainiertes Referenzmodell - um herauszufinden, welche Daten besonders lehrreich sind. Damit konnte die Trainingszeit um Faktor 13 verkürzt und die benötigte Rechenleistung um 90% reduziert werden.
  • Die Variante Flexi-JEST nutzt eine vereinfachte Version des Modells zur Datenbewertung und erreichte mit nur 10% der Trainingsdaten eine bessere Leistung als das derzeit führende Modell. Die Forscher sehen darin das Potenzial, aus kleinen, sorgfältig kuratierten Datensätzen zu lernen, um große, unstrukturierte Datenmengen zu filtern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!