Das Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT hat eine neue Methode entwickelt, mit der künstliche Intelligenz das Verhalten anderer KI-Systeme erklären kann.
Die Methode basiert auf so genannten "Automated Interpretability Agents" (AIAs), vorab trainierten Sprachmodellen, die intuitive Erklärungen für Berechnungen in trainierten Netzwerken liefern sollen.
AIAs sollen den experimentellen Prozess eines Wissenschaftlers bei der Planung und Durchführung von Tests auf anderen Computernetzwerken nachahmen.
Sie liefern Erklärungen in verschiedenen Formen, beispielsweise Sprachbeschreibungen von Systemfunktionen und -fehlern sowie Code, der das Systemverhalten reproduziert.
AIAs unterscheiden sich von bestehenden Interpretationsansätzen, so die MIT-Forscher. Sie nehmen aktiv an der Hypothesenbildung, dem experimentellen Testen und dem wiederholten Lernen teil. Diese aktive Beteiligung ermögliche es ihnen, ihr Verständnis anderer Systeme in Echtzeit zu verfeinern und einen tieferen Einblick in die Funktionsweise komplexer KI-Systeme zu gewinnen.
Der FIND-Benchmark
Ein zentraler Beitrag der Forscher ist der FIND-Benchmark (Function Interpretation and Description). Der Benchmark enthält ein Testbed von Funktionen, die den Berechnungen in trainierten Netzwerken ähneln. Diese Funktionen werden mit Beschreibungen ihres Verhaltens geliefert.
Forscher haben oft keinen Zugang zu „Ground-Truth“ Labels von Einheiten oder Beschreibungen von gelernten Berechnungen. Ziel von FIND ist es, dieses Problem zu lösen und einen verlässlichen Standard für die Evaluierung von Interpretationsmethoden zu schaffen.
Ein Beispiel im FIND-Benchmark sind synthetische Neuronen. Diese ahmen das Verhalten echter Neuronen in Sprachmodellen nach und sind selektiv für bestimmte Konzepte wie „Straßenverkehr“.
AIAs erhalten Blackbox-Zugriff auf diese Neuronen und entwerfen Eingaben, um die Reaktionen der Neuronen zu testen. Zum Beispiel testen sie die Selektivität eines Neurons für "Autos" im Vergleich zu anderen Verkehrsmitteln.
Dazu bestimmen sie, ob ein Neuron auf "Auto" stärker reagiert als auf andere Eingaben. Anschließend vergleichen sie ihre Beschreibungen mit den "ground truth"-Beschreibungen der synthetischen Neuronen, also dem "Straßenverkehr". So erarbeiten sie sich die Funktionen der einzelnen Neuronen.
Da jedoch die Modelle, die die Erklärungen liefern, selbst Black Boxes sind, wird eine externe Bewertung der Interpretationsmethoden immer wichtiger.
Der FIND-Benchmark zielt darauf ab, diesen Bedarf durch eine Reihe von Funktionen mit bekannter Struktur zu decken, die auf der Grundlage von beobachtetem Verhalten modelliert wurden und eine Vielzahl von Bereichen abdecken, vom mathematischen Denken bis hin zu symbolischen Operationen auf Zeichenketten.
Sarah Schwettmann, Mitautorin der Studie, hebt die Vorteile dieses Ansatzes hervor. AIAs seien in der Lage, selbstständig Hypothesen zu generieren und zu testen. Dadurch könnten sie Verhaltensweisen aufdecken, die sonst nur schwer zu erkennen seien.
Benchmarks mit "Ground-Truth"-Antworten hätten die Weiterentwicklung von Sprachmodellen vorangetrieben. Schwettmann hofft, dass FIND eine ähnliche Rolle in der Interpretierbarkeitsforschung spielen kann.
Gegenwärtig zeigt der FIND-Benchmark vor allem, dass der AIA-Ansatz noch verbessert werden muss. Er kann fast die Hälfte der Funktionen im Benchmark nicht beschreiben.
AIAs würden feinere Details übersehen, "insbesondere in Teilbereichen von Funktionen mit Rauschen oder unregelmäßigem Verhalten". Dennoch zeigten AIAs bessere Leistungen als bestehende Interpretationsmethoden.
Die Forscher arbeiten auch an einem Toolkit, um die Fähigkeit der AIAs zu verbessern, genauere Experimente mit neuronalen Netzen durchzuführen. Das Toolkit soll den AIAs bessere Werkzeuge für die Auswahl von Eingaben und die Verfeinerung von Hypothesentests an die Hand geben.
Das Team konzentriert sich auch auf die praktischen Herausforderungen der KI-Interpretierbarkeit, indem es untersucht, wie man die richtigen Fragen stellt, wenn Modelle in realen Szenarien analysiert werden. Ziel ist es, automatisierte Verfahren für die Interpretierbarkeit zu entwickeln.
Diese Verfahren sollen Menschen in die Lage versetzen, KI-Systeme vor ihrem Einsatz auf mögliche Fehler, versteckte Vorurteile oder unerwartetes Verhalten zu überprüfen und zu diagnostizieren.
Die Forscher wollen nahezu autonome AIAs entwickeln, die andere KI-Systeme überprüfen. Menschliche Wissenschaftler sollen sie beaufsichtigen und beraten. Fortgeschrittene KI-Systeme könnten dann neue Experimente und Fragen entwickeln, die über die ursprünglichen Überlegungen der menschlichen Wissenschaftler hinausgehen.