Aktuelle Sprach-Benchmarks können kaum noch mit der rasanten Entwicklung riesiger Sprach-KIs mithalten. Google-Forscher arbeiten jetzt an einem Benchmark jenseits des Turing-Tests.
Im Oktober 1950 erschien Alan Turings Aufsatz „Computing Machinery and Intelligence“. Dort stellte Turing das erste Mal sein „Imitation Game“ vor: Ein Mensch unterhält sich über geschriebenes oder gesprochenes Wort mit einer Maschine. Erkennt der Mensch die Maschine nicht als solche, sondern verwechselt sie mit einem Menschen, ist der Test bestanden.
Schon in etwa 50 Jahren könne es Computer geben, die in mindestens 30 Prozent der Fälle einen Gesprächspartner in einem fünfminütigen Gespräch täuschen, schätzte Turing damals. Aus dem Imitationsspiel wurde der Turing-Test, der in der KI-Forschung und -Kultur seinen Platz als vermeintlich ultimativer Test für Maschinen-Intelligenz einnahm.
Doch Fälle wie der Chatbot „Eugene“, der sich als 13 Jahre alter Junge ausgab und so mehr als 30 Prozent menschlicher Tester täuschte, machen deutlich, dass Turings Bezeichnung „Imitation Game“ den Nagel auf den Kopf traf und trifft: Systeme wie Eugene imitieren menschliche Sprachfähigkeit – sie beherrschen sie nicht.
Aktuelle Sprachbenchmarks wie SuperGLUE (General Language Understanding Evaluation) machen dieses Defizit deutlich: Der Benchmark testet spezifische Fähigkeiten wie logische Schlussfolgerungen oder die Fähigkeit, Texte zusammenzufassen. Ein Chatbot wie Eugene, der nur darauf ausgelegt ist, Menschen hinters Licht zu führen, versagt bei diesen Tests.
KI-Systeme für ein generelles Sprachverständnis
Statt Systemen, die mit Täuschung einen Turing-Test bestehen, braucht es also Systeme mit einem generellen Sprachverständnis. Die Entwicklung der letzten Jahre zeigt in die richtige Richtung, die Sprachfähigkeit Künstlicher Intelligenz konnte grundlegend verbessert werden.
Zwar gibt es noch keine KI mit einem generellen Sprachverständnis, aber die neuen Systeme schlagen viele bislang als Herausforderung geltende Benchmarks mit Leichtigkeit. Grundlagen der Fortschritte sind die neuartige Transformer-Architektur (Erklärung), das KI-Training mit riesigen Mengen Internettext, gigantische neuronale Netze und massig Rechenleistung für die Trainingsphase.
Mitte 2020 erschien OpenAIs GPT-3, eine Sprach-KI, die zwar noch immer durch den Turing-Test rasselt, aber außerhalb dieses spezifischen Szenarios so glaubwürdige Texte schreibt, dass ein Mensch sie nicht mehr von echten Texten unterscheiden kann.
Anfang 2021 erreichten dann Sprach-KIs von Google und Microsoft im SuperGLUE-Benchmark menschliches Niveau. Der nicht einmal anderthalb Jahre alte KI-Fähigkeitstest hat damit schon wieder ausgedient. Das zeigt eindrucksvoll den Fortschritt Künstlicher Intelligenz für Sprache in den letzten Monaten und beweist, wie wirkungsvoll die Skalierung mit Daten und Rechenleistung derzeit noch ist.
Ein Benchmark jenseits der Imitation
Mit dem Ende von SuperGLUE braucht die Forschung einen neuen Benchmark. Denn ohne Leistungstest können KI-Forscher nicht einschätzen, ob neu entwickelte Modelle Fortschritte erzielen.
Gleichzeitig sollte ein aktueller Sprach-KI-Benchmark der Tatsache Rechnung tragen, dass moderne Sprach-KIs immer besser darin werden, gewisse menschliche Sprachfähigkeiten zu imitieren.
Eine Gruppe Google-Forscher wendet sich daher an die Forschungsgemeinschaft. Das Ziel: ein neuer Sprach-KI-Benchmark, der die Fähigkeiten aktueller und zukünftiger Sprachmodelle testet und einschätzt.
Der „Beyond the Imitation Game Benchmark” (BIG-bench) soll eine Vielzahl an Aufgaben enthalten, die Hinweise geben können auf ein generelles Sprachverständnis. Die Forscher nennen als Beispiele etwa die Ableitung mathematischer Beweise, logisches Denken, die Beantwortung von Theory-of-Mind-Fragen zu einer Geschichte, die Beschriftung von ASCII-Bildern, die Unterscheidung von synthetischen und menschlichen Texten, Arithmetik, die Lösung von Chiffren, die Beantwortung von Multiple-Choice-Fragen oder das Lösen von Kreuzworträtseln.
Die Aufgaben für den Benchmark sollen Forscher aus unterschiedlichen Disziplinen wie der Linguistik, Kognitionswissenschaft, Philosophie, Logik oder Neurowissenschaft entwickeln. Sie sollen selbst die besten und größten Sprach-KIs vor eine echte Herausforderung stellen. Das Ziel sei ein Benchmark für die Forschung an großen Sprach-KIs für das nächste Jahrzehnt, schreiben die Forscher.
Wegen der vielen Trainingsdaten müssen die Entwickler der Aufgaben unter anderem darauf achten, dass die Antworten auf ihre Fragen nicht im Internet stehen – sonst besteht die Gefahr, dass die KI die Antworten beim Training einfach auswendig lernt und bei einer entsprechenden Anfrage abruft.
Google und OpenAI sind mit an Bord
Laut der Google-Forscher haben sich Google und OpenAI bereiterklärt, an einem ersten BIG-bench-Durchlauf teilzunehmen. Das ist wichtig, da beide Unternehmen Sprach-KIs mit hunderten Milliarden und sogar Billionen Parametern betreiben und daher die idealen Testsysteme für den neuen Benchmark stellen.
Neben dem Test aktueller Fähigkeiten erhoffen sich die Autoren einen Einblick in die Zukunft der Technologie. Nach Schätzungen sollen drei- bis fünfmal größere Sprach-KIs alle derzeit existierenden Benchmarks lösen können.
Sollte BIG-bench jedoch fundamentale Schwächen aktueller Systeme zeigen, wären diese ein Hinweis darauf, dass immer noch größere und umfangreicher trainierte Sprach-KIs nicht der richtige Weg sind zu einer Künstlichen Intelligenz mit einem generellen Sprachverständnis.
Eine erste Version des Benchmarks soll im Rahmen eines Workshops zu „enormen Sprachmodellen“ auf der ICLR 2021 (International Conference on Learning Representations) vorgestellt werden. Alle Informationen über den Benchmark und wie Aufgaben eingereicht werden können, stehen bei Github.