2023 neigt sich dem Ende zu, es war zweifellos das Jahr der generativen KI. Aber auch abseits des ChatGPT-Hypes gab es wichtige Entwicklungen. Hier sind einige wichtige Artikel, die ihr vielleicht verpasst habt.
Mit der Einführung von ChatGPT Ende 2022 und der anschließenden Veröffentlichung von GPT-4 im März 2023 wurden die tiefgreifenden Auswirkungen der breiten Verfügbarkeit großer Sprachmodelle im Speziellen und sogenannter Foundation-Modelle im Allgemeinen deutlich. Dieses Jahr war allgemein das Jahr der generativen KI für Text, Audio und Video.
Neben der raschen Verbreitung von ChatGPT gab es wichtige Entwicklungen wie die ersten konkurrenzfähigen Open-Source-Sprachmodelle und eine Vielzahl neuer KI-Start-ups, darunter europäische Unternehmen wie Mistral, das vor Ende des Jahres das derzeit beste Open-Source-Sprachmodell, Mixtral 8x7B, veröffentlichte.
Generative Agenten und Roboterkatzen
Mit Arbeiten wie Generative Agents von der Stanford University und Google zeigten Forscher auch Anwendungen jenseits der üblichen Text- und Codierungsaufgaben. Das Team schuf eine von den Sims inspirierte Sandbox-Umgebung, in der 25 KI-Agenten, denen jeweils eine kurze Beschreibung ihres Berufs und ihrer Persönlichkeit gegeben wurde, autonom interagieren. Die KI-Agenten zeigten "glaubwürdiges individuelles und emergentes soziales Verhalten", einschließlich der Planung und Teilnahme an einer Valentinstagsparty. Die Arbeit zeigte, wie auf Sprachmodellen basierende Agenten miteinander interagieren und interessante Ergebnisse produzieren können. Diese Idee wurde im Laufe des Jahres von vielen anderen Forschungs- und Open-Source-Projekten wie BabyAGI aufgegriffen und von OpenAI mit der Assistant-API wesentlich vereinfacht.
Foundation-Modelle wie GPT-4 wurden auch in der Robotik eingesetzt, wo einige Fortschritte erzielt wurden. Beispiele hierfür sind Googles Robotic Transformer 2 (RT-2) und RoboCat. RT-2 ist ein KI-Modell zur Robotersteuerung, das sowohl aus Roboter- als auch aus Webdaten lernt. Das Modell kann Text- und Bild-Inputs verarbeiten und aufgrund seines umfangreichen Wissens aus dem Web Aufgaben ausführen, für die es nicht explizit trainiert wurde. In über 6000 Roboter-Tests zeigte RT-2 bei untrainierten Aufgaben fast doppelt so hohe Erfolgsraten wie sein Vorgänger. RoboCat ist dagegen ein KI-Agent, der seine Trainingsdaten selbstständig generiert, um die Steuerung von Robotern zu verbessern. Auch andere Gruppen und Unternehmen wie Nvidia mit dem multimodalen Modell VIMA haben Foundation-Modelle in der Robotik eingesetzt.
DreamerV3 und FunSearch
Auch auf dem Gebiet des Reinforcement Learning gab es wichtige Ergebnisse. Ein Beispiel ist DreamerV3, das ohne Anpassungen auf sehr unterschiedliche Probleme angewendet werden kann. Das Team zeigte, wie DreamerV3 ohne menschliche Vorbilder lernt, Diamanten in Minecraft abzubauen. Anfang des Jahres zeigte Deepmind auch AdA, kurz für Adaptive Agent, ein Modell des Foundation Reinforcement Learning, wie Deepmind es nennt. AdA folgte dem klassischen Rezept des Foundation-Modells und wurde auf einfache Aufgaben mit riesigen Datenmengen trainiert – in diesem Fall in einer simplen Simulation. AdA war wichtig, weil es zeigt, dass Skalierung auch beim Reinforcement Learning zu Modellen führt, die dann bei anderen Aufgaben besser abschneiden.
Mein persönliches Highlight: Der Einzug von Deep Learning und anderen Methoden in verschiedene Wissenschaftsbereiche. Deepmind hat mit AlphaTensor einen neuen Algorithmus zur schnellen Matrizenmultiplikation entwickelt. Das Unternehmen gab auch Einblicke in die neueste Version des AlphaFold-Systems zur Vorhersage von Proteinstrukturen und zeigte, dass die neue Version viele Schwächen der Vorgängerversion überwindet und neue Möglichkeiten für computergestützte Strukturvorhersagen eröffnet. Darüber hinaus demonstrierte Google Deepmind mit FunSearch den erstmaligen Einsatz eines codegenerierenden Sprachmodells in Kombination mit einem evolutionären Suchalgorithmus, um eine bisher unbekannte Lösung für ein mathematisches Problem zu finden.
OthelloGPT, Q-Star und AI Act
2023 war aber auch das Jahr der KI-Regulierung und der weltweit wahrgenommenen Warnungen vor existenzbedrohenden Risiken, die auch dazu beigetragen haben dürften, die Forschung anzukurbeln, die versucht, die inneren Mechanismen großer Sprachmodelle besser zu verstehen. Hier gab es interessante Paper wie OthelloGPT, die viel kritisierte Veröffentlichung von Microsoft zum "Funken" AGI in GPT-4 und ein Paper von Google zum Phänomen des Grokking. Auch das viel beachtete Feld des Prompt Engineering bietet Einblicke in Sprachmodelle. Bemerkenswert ist hier François Chollets Interpretation von Prompt Engineering als Suche nach dem richtigen Vektorprogramm sowie Promptbreeder, der zeigt, dass Prompting in Zukunft wohl stärker automatisiert werden wird.
Das Jahr endete mit einem Gerücht über Q-Star, in dem sich bestehende Ängste, der AGI-Hype und die Verschlossenheit von OpenAI um den kurzfristigen Rauswurf von Sam Altman zu einem wahren Kaninchenbau vereinten.
Im Jahr 2024 wird wahrscheinlich weniger spekuliert und mehr verhandelt werden: Die derzeit laufenden Gerichtsverfahren um den Fair Use für KI-Training - wie die jüngste Klage der New York Times - werden zeigen, wie die Gesellschaft mit der Technologie umgeht. Diese Debatte wird auch in der EU geführt werden, wo sich die entscheidenden Akteure noch vor Jahresende auf den EU AI Act geeinigt haben. Die Details werden im Laufe des nächsten Jahres beschlossen und werden den KI-Markt in Europa stark beeinflussen.