Emergente Fähigkeiten in großen Sprachmodellen liefern Argumente für deren Skalierung. Ist Emergenz ein seltenes Phänomen?
Mit der Skalierung großer Sprachmodelle beobachten KI-Forschende für bestimmte Aufgaben unvorhersehbare und plötzliche Leistungssprünge. Solche emergenten Fähigkeiten lassen sich definieren als Fähigkeiten, die bei Modellen ab einer gewissen Größe sprunghaft und in kleinen Modellen nicht auftauchen.
Die Ursache für Emergenz ist noch nicht abschließend geklärt - sofern es überhaupt eine einzelne Ursache gibt. Forschungen etwa von Google zu emergenten Fähigkeiten werfen ein Licht auf das auch als Phasenübergang bezeichnete Phänomen.
Sind emergente Fähigkeiten selten?
Laut Google wirft das Auftreten emergenter Fähigkeiten die Frage auf, ob weitere Skalierung größere Sprachmodelle mit neuen emergenten Fähigkeiten ermöglicht. So gebe es etwa im BIG-Bench Benchmark für NLP Aufgaben, die noch kein großes Sprachmodell bewältigt habe. Die Existenz solcher Fähigkeiten dient also als eine Begründung für die weitere Skalierung von KI-Modellen.
Sie wirft aber auch die Frage auf, welche unentdeckten Fähigkeiten noch in großen Sprachmodellen oder anderen KI-Netzen stecken. Während Einzelfälle als Kuriosität abgetan werden könnten, weist eine Häufung von Phasenübergängen auf einen möglicherweise qualitativen Sprung ab einem gewissen Skalierungsgrad hin.
Sind solche Sprünge also die Ausnahme? Oder kratzen wir erst an der Oberfläche der Tiefen großer Sprachmodelle?
Google-Forscher zählt emergente Fähigkeiten in Sprachmodellen
Eine Antwort gibt ein Blick in Benchmarks, denn dort tauchen emergente Fähigkeiten am wahrscheinlichsten auf. Jason Wei, KI-Forscher bei Google Brain, hat sich die Mühe gemacht und alle bisher entdeckten emergenten Fähigkeiten gezählt.
Wei kommt auf 137 emergente Fähigkeiten in den skalierten Sprachmodellen GPT-3, Chinchilla und PaLM. Die größten Quellen solcher empirischen Entdeckungen seien die NLP-Benchmarks BIG-Bench und Massive Multitask Benchmark mit 67 und 51 Fällen.
In BIG-Bench zeigen sich etwa für GPT-3 (175 Mrd. Parameter) emergente Fähigkeiten für "analytische Folgerung, Codenamen, Satzverwandtschaft, Frage-Antwort-Kreation, Selbstevaluierungs-Tutoring, gemeinsame Morpheme, Faktenüberprüfung, Erkennung von Redewendungen" und viele weitere Aufgaben.
Für andere Modelle finden sich Fähigkeiten in Benchmarks für Fragen nach Mikroökonomik, konzeptueller Physik, Medizin oder die Fähigkeit, gendergerechte Sätze in deutscher Sprache zu formulieren. Weitere Beispiele finden sich in den jeweiligen Papern, etwa die simplen Mathematik-Fähigkeiten von GPT-3.
Neben einzelnen emergenten Fähigkeiten, die großen Sprachmodellen erlauben, komplexe Sprach-Aufgaben zu erledigen, ermöglicht die Skalierung auch die Anwendung von emergenten Prompting-Strategien. So schlägt etwa das Chain-of-Thought-Prompting erst ab einer gewissen Parameterzahl an.
Skalierung und die Rolle von Benchmarks
Wei sieht seine Zählung als Hinweis, dass eine weitere Skalierung sinnvoll ist:
Die Existenz emergenter Fähigkeiten bedeutet, dass eine weitere Skalierung noch mehr emergente Fähigkeiten freisetzen würde. Diese Idee ist super spannend für mich.
Jason Wei
Tatsächlich zeigen verschiedene Untersuchungen zu Skalierungsgesetzen, dass ein weiterer Leistungsanstieg zu erwarten ist. Ob und welche emergenten Fähigkeiten dadurch entstehen, ist durch die Natur der Sache schwer einschätzbar.
Dass aktuelle Modelle diese Fähigkeiten bereits besitzen, zeigt jedoch, dass wir womöglich noch gar nicht alle emergenten Fähigkeiten entdeckt haben, da kein Benchmark für sie vorliegt. Wie so oft in der KI-Forschung haben Benchmarks also eine zentrale Rolle.
Abseits der Skalierung gibt es weitere Techniken, etwa das Reinforcement Learning mit menschlichem Feedback, die bestehende Modelle ohne Skalierung verbessern können, jüngst etwa GPT-3. Verbesserungen an der Architektur und der Qualität von Trainingsdaten, bessere Prompts oder die Verknüpfung mit externen Modulen führen zu weiteren Leistungssteigerungen.
Wo der Weg bei großen Sprachmodellen hingeht, zeigt sich wohl 2023: Da erwarten Analysten die Veröffentlichung von OpenAIs GPT-4. Das System wird zeigen, ob dem Unternehmen bedeutende Schritte gelungen sind auf dem Weg zum großen Skalierungsziel: das zuverlässige, logische Schlussfolgern.
Die vollständige Liste von Wei steht in seinem Blog-Beitrag "137 emergent abilities of large language models".