ChatGPT ist laut Google Deepmind eine entstehende künstliche allgemeine Intelligenz

Google DeepMind hat einen neuen Rahmen für die Klassifizierung von Fähigkeiten und Verhalten künstlicher allgemeiner Intelligenz (AGI) und ihrer Vorläufer vorgeschlagen.

Dieser Rahmen, den das Forschungsteam von Google Deepmind "Levels of AGI" nennt, soll eine gemeinsame Sprache für den Vergleich von Modellen, die Risikobewertung und die Messung von Fortschritten in Richtung KI bieten.

Basierend auf der Tiefe (Leistung) und Breite (Allgemeinheit) der Fähigkeiten schlägt das Team "Levels of AGI" vor, und zeigt, wie aktuelle Systeme in diesen Rahmen passen. Die Autoren erwarten, dass dieser Rahmen eine ähnliche Funktion wie die Stufen des autonomen Fahrens erfüllen wird, indem er den Vergleich von Modellen, die Risikobewertung und die Fortschrittsmessung erleichtert.

In dem Papier erkennt das DeepMind-Team an, dass sich das Konzept der AGI aufgrund der raschen Fortschritte bei Modellen des maschinellen Lernens (ML) von einem Gegenstand philosophischer Diskussionen zu einem Thema mit unmittelbarer praktischer Relevanz entwickelt hat.

Das Team schlägt daher vor, dass es für die KI-Forschungsgemeinschaft wichtig ist, den Begriff "AGI" zu definieren und Attribute wie Leistung, Allroundfähigkeit und Autonomie von KI-Systemen zu quantifizieren.

Neun existierende Definitionen von AGI, die alle unzureichend sind

Die Autoren stellen fest, dass der Begriff AGI häufig verwendet wird, um ein KI-System zu beschreiben, das bei den meisten Aufgaben so gut ist wie ein Mensch. Dabei ist die Komplextität für eine Definition deutlich höer. In dem Preprint-Artikel beschreibt das Team neun bekannte Beispiele für AGI-Definitionen und mögliche Definitionslücken.

1. Turing-Test

Der von Alan Turing 1950 vorgeschlagene Turing-Test ist ein bekannter Versuch, ein Konzept wie AGI zu operationalisieren. Da jedoch moderne Sprachmodelle bereits einige Varianten des "Imitation Game", bei dem sich eine Maschine im Gespräch als Mensch ausgibt, bestehen, sei der Test für die Operationalisierung oder das Benchmarking von AGI unzureichend. Er zeige, dass Fähigkeiten und nicht Prozesse gemessen werden müssten.

2. Starke KI – Systeme mit Bewusstsein

Empfehlung

KI-Forschung

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

Der Philosoph John Searle schlägt vor, dass AGI Systeme mit Bewusstsein umfassen sollte. Es gibt jedoch keinen wissenschaftlichen Konsens über die Methoden zur Bestimmung des Bewusstseins von Maschinen, was diese Definition unpraktisch mache.

3. Analogien zum menschlichen Gehirn

Mark Gubruds Artikel aus dem Jahr 1997 über Militärtechnologien definiert AGI als KI-Systeme, die das menschliche Gehirn in Komplexität und Geschwindigkeit übertreffen. Der Erfolg von Transformer-basierten Architekturen deute jedoch darauf hin, dass streng gehirnbasierte Prozesse und Benchmarks für AGI nicht unbedingt erforderlich seien.

4. Menschliche Leistung bei kognitiven Aufgaben

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Legg und Goertzel beschreiben AGI als eine Maschine, die kognitive Aufgaben ausführen kann, die typischerweise von Menschen ausgeführt werden. Diese Definition konzentriere sich auf nicht-physische Aufgaben, lasse aber Fragen wie "welche Aufgaben" und "welche Menschen" offen.

5. Fähigkeit, Aufgaben zu erlernen

In "The Technological Singularity" schlägt Shanahan vor, dass AGI KI-Systeme umfasst, die in der Lage sind, ein breites Spektrum von Aufgaben wie ein Mensch zu erlernen. Diese Definition betont den Wert metakognitiver Aufgaben (Lernen) als Voraussetzung für die Realisierung von AGI.

6. Wirtschaftlich wertvolle Arbeit

Die Charta von OpenAI definiert AGI als hochautonome Systeme, die Menschen in den meisten wirtschaftlich wertvollen Aufgaben übertreffen, und fokussiere sich auf Fähigkeiten statt auf Prozesse. Sie umfasse jedoch nicht alle Kriterien, die Teil der allgemeinen Intelligenz sein könnten, wie künstlerische Kreativität oder emotionale Intelligenz.

7. Flexibel und allgemein – Der "Kaffee-Test" und verwandte Herausforderungen

Marcus definiert AGI als eine flexible, allgemeine Intelligenz mit einer Leistung in Bezug auf Ressourcen und Zuverlässigkeit, die mit der menschlichen Intelligenz vergleichbar ist. Diese Definition umfasst sowohl Allgemeingültigkeit als auch Leistung, erfordert aber für einige Aufgaben eine robotische Verkörperung, im Gegensatz zu anderen Definitionen, die sich auf nicht-physische Aufgaben konzentrieren.

8. Künstliche fähige Intelligenz

In seinem Buch "The Coming Wave" (Die kommende Welle) schlägt der Mitbegründer von Deepmind, Mustafa Suleyman, das Konzept der "künstlichen fähigen Intelligenz (KI)" vor, das sich auf KI-Systeme konzentriert, die in der Lage sind, komplexe, vielschichtige Aufgaben in einer offenen Welt zu bewältigen. Diese Definition ist jedoch enger als die von OpenAI vorgeschlagene Definition von wirtschaftlich verwertbarer Arbeit und könnte durch die ausschließliche Fokussierung auf finanziellen Gewinn Risiken für die Ausrichtung mit sich bringen.

9. State-of-the-Art-Sprachmodelle als Generalisten

Agüera y Arcas und Norvig vertreten die Ansicht, dass Sprachmodelle, die dem Stand der Technik entsprechen, bereits AGIs sind, da sie eine allgemeine Fähigkeit zur Konversation besitzen. Das GoogleDeepmind-Team argumentiert jedoch, dass diesem Konzept ein Leistungsmaß fehlt, das für die Bewertung des AGI-Status entscheidend ist, und dass die ausschließliche Konzentration auf den finanziellen Gewinn Risiken für die Ausrichtung mit sich bringen könnte.

Sechs Prinzipien für eine AGI-Definition

Anschließend skizziert das Papier sechs Prinzipien, die bei der Kategorisierung von AGI-Systemen berücksichtigt werden sollten. Diese sechs Grundsätze sollen eine umfassende und praktikable Definition von AGI liefern, die es ermöglicht, die Entwicklung von KI-Systemen zu steuern, Fortschritte zu messen und potenzielle Risiken und Herausforderungen auf dem Weg zu AGI zu bewältigen.

1. Fokus auf Fähigkeiten, nicht auf Prozesse

Die meisten Definitionen von AGI konzentrieren sich auf das, was ein AGI-System leisten kann, und nicht auf die Mechanismen, die es dafür verwendet. Durch die Konzentration auf die Fähigkeiten können AGI von Systemen unterschieden werden, die wie Menschen denken oder verstehen oder über Eigenschaften wie Bewusstsein oder Empfindungsvermögen verfügen.

2. Fokus auf Allgemeinheit und Leistung

Sowohl die Universalität (die Fähigkeit, eine Vielzahl von Aufgaben zu erfüllen) als auch die Leistungsfähigkeit (das Niveau, auf dem die Aufgaben erfüllt werden) werden als wesentliche Komponenten von AGI betrachtet. Die Autoren schlagen eine abgestufte Taxonomie vor, um die Wechselwirkungen zwischen diesen Dimensionen zu untersuchen.

3. Fokus auf kognitive und metakognitive Aufgaben

Die Diskussion über die Notwendigkeit einer Roboterverkörperung für AGI dauert an. Die meisten Definitionen konzentrieren sich auf kognitive (nicht physische) Aufgaben. Obwohl physische Fähigkeiten für KI-Systeme weniger wichtig zu sein scheinen als nicht-physische Fähigkeiten, kann eine Verkörperung in der physischen Welt für einige kognitive Aufgaben notwendig sein oder zur Universalität eines Systems beitragen.

Metakognitive Fähigkeiten, wie die Fähigkeit, neue Aufgaben zu erlernen oder zu erkennen, wann eine Klarstellung erforderlich ist, werden als wesentlich für das Erreichen von Generalisierungsfähigkeit angesehen.

4. Fokus auf Potenzial, nicht auf Einsatz

Der Nachweis, dass ein System die geforderten Aufgaben auf einem bestimmten Leistungsniveau erfüllen kann, sollte ausreichen, um es als AGI zu bezeichnen. Der Einsatz in der realen Welt sollte nicht Teil der Definition von AGI sein.

5. Fokus auf ökologische Validität

Die Operationalisierung der vorgeschlagenen AGI-Definition erfordert Aufgaben, die realen, ökologisch wertvollen und von den Menschen geschätzten Aufgaben entsprechen. Dies schließt wirtschaftliche, soziale und künstlerische Werte ein.

6. Fokussierung auf den Weg zur AGI, nicht auf einen einzelnen Endpunkt

Die Definition von "AGI-Stufen" ermögliche eine klare Diskussion über Fortschritte und politische Fragen im Zusammenhang mit AGI, ähnlich den Stufen der Fahrzeugautomatisierung für autonome Fahrzeuge. Jede AGI-Stufe sollte mit klaren Benchmarks, identifizierten Risiken und Veränderungen im Paradigma der Mensch-KI-Interaktion verbunden sein.

ChatGPT ist laut Google Deepmind eine Anfänger-AGI

Google Deepmind schlägt die in der folgenden Abbildung dargestellten Stufen vor, nach denen sich ein System wie GPT-4 auf Stufe 1 von fünf möglichen Stufen befindet. Die Definition "emergent" entspricht hier der Fähigkeit der KI, bestimmte Aufgaben auf dem Niveau oder sogar etwas besser als ein untrainierter Mensch zu erledigen. Eine KI mit Super-Mensch-Fähigkeiten hingegen würde alle Menschen in allen Aufgaben immer übertreffen.

Analog zu den AGI-Levels schlagen die Forschenden auch Definitionen für Autonomie-Levels vor. Mit jedem neuen Autonomie-Level würden neue Mensch-Computer-Interaktionen, aber auch neue Risiken entstehen.

Bei einer Superhuman-KI auf Autonomie-Level 5, also einem vollständig autonomen KI-Agenten, wäre ein Risiko etwa die Machtkonzentration in einem System, das nicht vollständig auf menschliche Bedürfnisse ausgerichtet ist - das viel zitierte Alignment-Problem. Autonomie-Level und KI-Level müssten jedoch nicht zwangsläufig übereinstimmen.

AGI messbar machen

Doch wie kann AGI verlässlich gemessen und welche Faktoren sollten gemessen werden? Die Entwicklung eines AGI-Benchmarks sei ein "herausfordernder und iterativer Prozess", schreibt das Team.

Er müsse ein breites Spektrum kognitiver und metakognitiver Aufgaben umfassen und verschiedene Eigenschaften mit kognitiven und metakognitiven Aufgaben messen, einschließlich (aber nicht beschränkt auf) verbale Intelligenz, mathematisches und logisches Denken, räumliches Denken, interpersonale und intrapersonale soziale Intelligenz, die Fähigkeit, neue Fähigkeiten zu erlernen, und Kreativität.

Er könnte auch die psychometrischen Kategorien abdecken, die von den Intelligenztheorien der Psychologie, der Neurowissenschaften, der Kognitionswissenschaften und der Pädagogik vorgeschlagen werden.Bei solchen "traditionellen" Tests müsste jedoch zunächst sichergestellt werden, dass sie für den Computer geeignet sind.

Dazu müsse geprüft werden, ob sie den richtigen Bezug zur Realität haben (ökologische Validität), ob sie die richtigen Zusammenhänge messen und ob sie wirklich das messen, was sie zu messen vorgeben (Konstruktvalidität).

Ein AGI-Benchmark sollte daher ein "lebendiger Benchmark" sein, da es unmöglich ist, alle Aufgaben aufzulisten und zu testen, die eine hinreichend allgemeine Intelligenz bewältigen kann. Selbst unvollkommene Messungen oder die Messung dessen, was AGI nicht ist, könnten dazu beitragen, Ziele zu definieren und einen Indikator für den AGI-Fortschritt zu liefern.

ChatGPT ist laut Google Deepmind eine entstehende künstliche allgemeine Intelligenz

Neun existierende Definitionen von AGI, die alle unzureichend sind

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

Sechs Prinzipien für eine AGI-Definition

ChatGPT ist laut Google Deepmind eine Anfänger-AGI

AGI messbar machen

AlphaGenome erkennt krankheitsrelevante Mutationen in menschlichem Genom

Google Deepmind und Google Research starten KI-Plattform zur Vorhersage von Wirbelstürmen

Deepmind-CEO: KI-Weltmodelle verstehen physikalische Realität bereits erstaunlich gut

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

ChatGPT ist laut Google Deepmind eine entstehende künstliche allgemeine Intelligenz

Neun existierende Definitionen von AGI, die alle unzureichend sind

Sechs Prinzipien für eine AGI-Definition

ChatGPT ist laut Google Deepmind eine Anfänger-AGI

AGI messbar machen

Artikel teilen

Bankverbindung