Versteckte Fähigkeiten großer Sprachmodelle: Ist Emergenz die Norm?

Emergente Fähigkeiten in großen Sprachmodellen liefern Argumente für deren Skalierung. Ist Emergenz ein seltenes Phänomen?

Mit der Skalierung großer Sprachmodelle beobachten KI-Forschende für bestimmte Aufgaben unvorhersehbare und plötzliche Leistungssprünge. Solche emergenten Fähigkeiten lassen sich definieren als Fähigkeiten, die bei Modellen ab einer gewissen Größe sprunghaft und in kleinen Modellen nicht auftauchen.

Die Ursache für Emergenz ist noch nicht abschließend geklärt - sofern es überhaupt eine einzelne Ursache gibt. Forschungen etwa von Google zu emergenten Fähigkeiten werfen ein Licht auf das auch als Phasenübergang bezeichnete Phänomen.

Sind emergente Fähigkeiten selten?

Laut Google wirft das Auftreten emergenter Fähigkeiten die Frage auf, ob weitere Skalierung größere Sprachmodelle mit neuen emergenten Fähigkeiten ermöglicht. So gebe es etwa im BIG-Bench Benchmark für NLP Aufgaben, die noch kein großes Sprachmodell bewältigt habe. Die Existenz solcher Fähigkeiten dient also als eine Begründung für die weitere Skalierung von KI-Modellen.

Sie wirft aber auch die Frage auf, welche unentdeckten Fähigkeiten noch in großen Sprachmodellen oder anderen KI-Netzen stecken. Während Einzelfälle als Kuriosität abgetan werden könnten, weist eine Häufung von Phasenübergängen auf einen möglicherweise qualitativen Sprung ab einem gewissen Skalierungsgrad hin.

Sind solche Sprünge also die Ausnahme? Oder kratzen wir erst an der Oberfläche der Tiefen großer Sprachmodelle?

Google-Forscher zählt emergente Fähigkeiten in Sprachmodellen

Eine Antwort gibt ein Blick in Benchmarks, denn dort tauchen emergente Fähigkeiten am wahrscheinlichsten auf. Jason Wei, KI-Forscher bei Google Brain, hat sich die Mühe gemacht und alle bisher entdeckten emergenten Fähigkeiten gezählt.

Wei kommt auf 137 emergente Fähigkeiten in den skalierten Sprachmodellen GPT-3, Chinchilla und PaLM. Die größten Quellen solcher empirischen Entdeckungen seien die NLP-Benchmarks BIG-Bench und Massive Multitask Benchmark mit 67 und 51 Fällen.

In BIG-Bench zeigen sich etwa für GPT-3 (175 Mrd. Parameter) emergente Fähigkeiten für "analytische Folgerung, Codenamen, Satzverwandtschaft, Frage-Antwort-Kreation, Selbstevaluierungs-Tutoring, gemeinsame Morpheme, Faktenüberprüfung, Erkennung von Redewendungen" und viele weitere Aufgaben.

Empfehlung

KI-Forschung

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Für andere Modelle finden sich Fähigkeiten in Benchmarks für Fragen nach Mikroökonomik, konzeptueller Physik, Medizin oder die Fähigkeit, gendergerechte Sätze in deutscher Sprache zu formulieren. Weitere Beispiele finden sich in den jeweiligen Papern, etwa die simplen Mathematik-Fähigkeiten von GPT-3.

Neben einzelnen emergenten Fähigkeiten, die großen Sprachmodellen erlauben, komplexe Sprach-Aufgaben zu erledigen, ermöglicht die Skalierung auch die Anwendung von emergenten Prompting-Strategien. So schlägt etwa das Chain-of-Thought-Prompting erst ab einer gewissen Parameterzahl an.

Skalierung und die Rolle von Benchmarks

Wei sieht seine Zählung als Hinweis, dass eine weitere Skalierung sinnvoll ist:

Die Existenz emergenter Fähigkeiten bedeutet, dass eine weitere Skalierung noch mehr emergente Fähigkeiten freisetzen würde. Diese Idee ist super spannend für mich.

Jason Wei

Tatsächlich zeigen verschiedene Untersuchungen zu Skalierungsgesetzen, dass ein weiterer Leistungsanstieg zu erwarten ist. Ob und welche emergenten Fähigkeiten dadurch entstehen, ist durch die Natur der Sache schwer einschätzbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Dass aktuelle Modelle diese Fähigkeiten bereits besitzen, zeigt jedoch, dass wir womöglich noch gar nicht alle emergenten Fähigkeiten entdeckt haben, da kein Benchmark für sie vorliegt. Wie so oft in der KI-Forschung haben Benchmarks also eine zentrale Rolle.

Abseits der Skalierung gibt es weitere Techniken, etwa das Reinforcement Learning mit menschlichem Feedback, die bestehende Modelle ohne Skalierung verbessern können, jüngst etwa GPT-3. Verbesserungen an der Architektur und der Qualität von Trainingsdaten, bessere Prompts oder die Verknüpfung mit externen Modulen führen zu weiteren Leistungssteigerungen.

Wo der Weg bei großen Sprachmodellen hingeht, zeigt sich wohl 2023: Da erwarten Analysten die Veröffentlichung von OpenAIs GPT-4. Das System wird zeigen, ob dem Unternehmen bedeutende Schritte gelungen sind auf dem Weg zum großen Skalierungsziel: das zuverlässige, logische Schlussfolgern.

Die vollständige Liste von Wei steht in seinem Blog-Beitrag "137 emergent abilities of large language models".

Versteckte Fähigkeiten großer Sprachmodelle: Ist Emergenz die Norm?

Sind emergente Fähigkeiten selten?

Google-Forscher zählt emergente Fähigkeiten in Sprachmodellen

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Skalierung und die Rolle von Benchmarks

Große KI-Modelle könnten bald viel schneller noch größer werden

Google untersucht emergente Fähigkeiten in großen KI-Modellen

Mind's Eye: Wie Physik-Daten große Sprachmodelle verbessern

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Versteckte Fähigkeiten großer Sprachmodelle: Ist Emergenz die Norm?

Sind emergente Fähigkeiten selten?

Google-Forscher zählt emergente Fähigkeiten in Sprachmodellen

Skalierung und die Rolle von Benchmarks

Artikel teilen

Bankverbindung