Eine neue Forschungsmethode enthüllt, wie KI-Systeme Konzepte lernen und dabei über mehr Fähigkeiten verfügen als bisher angenommen. Die Analyse im "Konzeptraum" zeigt überraschende Erkenntnisse und bietet Hinweise für besseres Training und Prompt Engineering.
Wie genau lernen generative KI-Modelle aus Trainingsdaten? Dieser Frage sind Forscher in einer neuen Studie nachgegangen. Das Team analysiert dafür die Lerndynamik eines Modells in einem sogenannten "Konzeptraum". In diesem abstrakten Koordinatensystem repräsentiert jede Achse ein unabhängiges Konzept, das dem Prozess der Datengenerierung zugrunde liegt - zum Beispiel die Form, Farbe oder Größe eines Objekts.
"Indem wir die Lerndynamik in diesem Raum charakterisieren, können wir bestimmen, wie die Geschwindigkeit, mit der Konzepte gelernt werden, und die Reihenfolge, in der die Konzepte gelernt werden, von Eigenschaften der Daten gesteuert werden, die wir als Konzeptsignal bezeichnen", erklären die Forscher in ihrer Studie.
Das Konzeptsignal misst den Wissenschaftlern zufolge, wie empfindlich der Datengenerierungsprozess auf Änderungen der Werte eines Konzepts reagiert. Je stärker das Signal für ein bestimmtes Konzept ist, desto schneller lernt es das Modell. Beispielsweise lernten die Modelle die Farbe schneller, wenn der Unterschied zwischen Rot und Blau im Datensatz deutlicher war. Wenn die Signalstärken für verschiedene Konzepte unterschiedlich sind, führt dies zu Unterschieden in der Lerngeschwindigkeit für jedes Konzept.
Versteckte Fähigkeiten lassen sich nicht über simple Prompts ansprechen
Interessanterweise beobachteten die Forscher auch plötzliche Richtungsänderungen in der Lerndynamik des Modells im konzeptuellen Raum - weg von der konzeptuellen Erinnerung hin zur Generalisierung. Genau an diesem Punkt, so die Forscher, treten die "versteckten Fähigkeiten" auf. Um dies zu verdeutlichen, trainierten die Wissenschaftler das Modell mit Bildern von "großen roten Kreisen", "großen blauen Kreisen" und "kleinen roten Kreisen". Die Kombination "klein" und "blau" wurde dem Modell im Training so nicht gezeigt. Es musste also generalisieren, um einen "kleinen blauen Kreis" zu erzeugen. Durch einfache Textvorgaben wie "kleiner blauer Kreis" gelang dies zunächst nicht.
Durch gezielte Eingriffe in die latenten Repräsentationen des Modells, so genannte "latente Interventionen", konnten die Forscher jedoch die gewünschten Bilder erzeugen. Konkret manipulierten sie die Aktivierungen im Modell, die für Farbe und Größe zuständig sind, indem sie die Aktivierung für "blau" verstärkten und die für "groß" abschwächten. Zusätzlich testeten sie "Overprompting", bei dem die Farbangabe im Prompt deutlich verstärkt wurde - in diesem Fall über die Angabe von RGB-Zahlenwerten.
Beide Methoden führten dazu, dass das Modell den "kleinen blauen Kreis" korrekt erzeugte, obwohl es dies zuvor mit dem normalen Prompt nicht konnte. Das zeigt, dass das Modell zwar die Konzepte "klein" und "blau" versteht und kombinieren kann (Generalisierung), aber noch nicht gelernt hat, diese Kombination mit einem einfachen Text-Prompt abzurufen.
Versteckte Fähigkeiten auch in größeren Modellen?
Die Forscher untersuchten auch den Einfluss von "Underspecification", also unvollständigen Anweisungen, auf das Lernen. Sie fanden heraus, dass ungenaue Anweisungen das Lernen und die Generalisierung verlangsamen. Fehlen beispielsweise im Training die Farbangaben zu den Objekten, hat das Modell später Schwierigkeiten, die Farbe richtig zuzuordnen.
Obwohl sich die Forscher in ihrer Arbeit auf synthetische Datensätze konzentrierten, gehen sie davon aus, dass ihre Erkenntnisse über die Entstehung verborgener Fähigkeiten allgemein gültig sind. Daher testeten sie ihre Hypothese auch mit dem realen CelebA-Datensatz, der Bilder von Gesichtern mit verschiedenen Attributen wie Geschlecht und Lächeln enthält. Auch hier fanden sie Hinweise auf verborgene Fähigkeiten. So gelang es ihnen, durch latente Interventionen Bilder von lächelnden Frauen zu erzeugen, während das Modell dies mit naiven Prompts nicht zuverlässig schaffte. Auch ein erstes Experiment mit Stable Diffusion 1.4 zeigte, dass sich via Overprompting ungewohnte Bilder produzieren lassen, in diesem Fall eine Kreditkarte in Dreiecksform.
"Generative Modelle besitzen latente Fähigkeiten, die während des Trainings plötzlich und konsistent erlernt werden, aber diese Fähigkeiten sind nicht sofort sichtbar, da sie möglicherweise nicht durch Eingabeaufforderungen hervorgerufen werden können", so das Team.