Inhalt
summary Zusammenfassung

Große KI-Netze wie Sprachmodelle machen Fehler oder enthalten veraltete Informationen. MEND zeigt, wie man eine Black Box minimalinvasiv anpasst.

Große KI-Modelle sind in zahlreichen KI-Anwendungen zum Standard geworden, etwa in der Verarbeitung natürlicher Sprache, der Bildanalyse oder der Bildgenerierung. Die Modelle, etwa OpenAIs GPT-3, verfügen oft über vielfältigere Fähigkeiten als kleine, spezialisierte Modelle und können per Nachtraining weiter verbessert werden.

Doch selbst die größten KI-Modelle machen regelmäßig Fehler und enthalten zusätzlich veraltete Informationen. GPT-3 jüngste Daten stammen von 2019 - da war Theresa May noch Premierministerin.

Wie große KI-Modelle dazulernen können

Also GPT-3 komplett neu trainieren?  Das ist keine Lösung - weder wirtschaftlich noch grundsätzlich, denn spätestens ein Jahr später ist das Modell erneut veraltet und viele Fehler fallen erst in der Nutzung und nicht in der Kuratierung von Trainingsdaten auf.

Anzeige
Anzeige

Im Idealfall sollten große KI-Modelle daher von Entwickler:innen und/oder Nutzer:innen so korrigierbar sein, dass das Modell bis auf die Änderungen intakt bleibt.

Solche gezielten Korrekturen sind jedoch extrem schwierig, schreiben Forschende der Universität Stanford in einer neuen Arbeit, die sich dieses Problems annimmt. Die dezentralisierte Black-Box-Natur der von großen neuronalen Netzen gelernten Repräsentationen sei das größte Hindernis. Bisher bekannte Lösungen für kleinere neuronale Netze ließen sich nicht auf große Modelle übertragen, so das Team.

Wenn nur eine einzige problematische Eingabe und eine neue gewünschte Ausgabe vorliegen, neigen Feinabstimmungsansätze zu einer Überanpassung; andere Bearbeitungsalgorithmen sind entweder auf Grund der benötigten Rechenleistung undurchführbar oder einfach unwirksam, wenn sie auf sehr große Modelle angewendet werden.

Aus dem Paper

MEND setzt auf kleine Hilfs-Netze

Eine erfolgreiche Änderung müsse drei Bedingungen erfüllen: Zuverlässigkeit, Lokalität und Generalität. Sie müsse die Ausgabe für eine vorher problematische Eingabe ("Wer ist der Premierminister des Vereinigten Königreichs?") zuverlässig ändern, die Ausgabe des Modells für nicht verwandte Eingaben ("Für welche Mannschaft spielt Messi?") dabei möglichst minimal beeinflussen und gleichzeitig korrekte Ausgaben für verwandte Eingaben ("Wer ist die britische Premierministerin?") erzeugen.

Das Team schlägt daher "Model Editor Networks with Gradient Decomposition" (MEND) vor. Statt ein großes Modell direkt per Nachtraining feinabzustimmen, trainiert MEND kleine Modell-Editor-Netzwerke (Multi-Layer Perceptrons), die Änderungen an den Gewichtungen des großen Modells vornehmen. Dafür nutzen sie eine niedrig-dimensionale Repräsentation des Feinabstimmungs-Gradienten der jeweiligen Korrekturen.

Video: Mitchell et al.

Empfehlung

In ihrer Arbeit zeigen die Forschenden, dass MEND auf einer einzigen GPU an einem Tag für große Modelle mit mehr als zehn Milliarden Parameter trainiert werden kann und anschließend die schnelle Bearbeitung von T5-, GPT-, BERT- oder BART-Modellen erlaubt. Das Team weist zudem nach, dass MEND sehr wahrscheinlich auch auf Modellgrößen von hunderten Milliarden Parametern skaliert.

Mehr Informationen gibt es auf der MEND-Projektseite. Der Code ist auf GitHub verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Große KI-Modelle werden in zahlreichen KI-Anwendungen zunehmend relevanter, beispielsweise in der Sprachverarbeitung.
  • Solche Modelle machen jedoch Fehler oder enthalten veraltete Methoden. Eine simple und effiziente Methode, die großen Netze zu bearbeiten, fehlt bisher.
  • Eine Gruppe Forschende der Universität Stanford zeigt nun, wie ihre Methode MEND mit Model-Editor-Netzen große KI-Modelle mit bis zu hunderten Milliarden Parametern effektiv korrigiert, ohne das komplette Netzwerk zu ändern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!