Oriol Vinyals, Vizepräsident von DeepMinds Drastic Research und Co-Tech-Lead von Gemini, erklärt die Evolution der künstlichen Intelligenz von eng fokussierten Systemen zu autonomen Agenten - und welche Hürden noch zu überwinden sind.
Laut Vinyals durchläuft künstliche Intelligenz einen fundamentalen Wandel: Weg von hoch spezialisierten Systemen, hin zu autonomen Agenten. Wie er in einem Podcast des Unternehmens erläutert, waren frühe KI-Systeme wie AlphaStar, die sich auf das Spielen von StarCraft spezialisierten, nur der Anfang dieser Entwicklung.
Die heutigen Large Language Models (LLMs) und multimodalen Systeme fungieren laut Vinyals als eine Art "CPU" - als Grundlage für komplexere Fähigkeiten. Der nächste große Schritt sei es nun, diesen Systemen einen "digitalen Körper" zu geben, der es ihnen ermöglicht, selbstständig mit der (digitalen) Welt zu interagieren.
Die Grenzen der Skalierung und neue Lösungsansätze
Eine zentrale Herausforderung liegt laut Vinyals in den Grenzen der Skalierung. Einfach nur größere Modelle zu bauen, reiche nicht mehr aus. Die Verbesserungen würden exponentiell schwieriger. Vinyals vergleicht es mit dem Aufräumen eines Zimmers: "Die ersten 10 Minuten bringen den größten Effekt, nach 7 Stunden macht eine weitere Viertelstunde kaum noch einen Unterschied."
Auch die verfügbaren Trainingsdaten werden knapp. Nach Angaben von Vinyals experimentiert DeepMind daher mit synthetischen Daten und unerschlossenen Datenquellen wie Videos: "Es gibt eine Menge Videodaten, aus denen wir Naturgesetze und Funktionsweisen der Welt lernen könnten, auch ohne zugehörige Texte. Diese Quelle haben wir noch nicht erschlossen."
Mit Gemini 2.0 habe Google DeepMind nun auch erste Schritte in Richtung autonomer Agenten vorgestellt. Das System kann laut von Google gezeigten Demos im Browser navigieren, Code schreiben und als "Begleiter" in Spielen fungieren. Diese Fähigkeiten seien aber erst der Anfang: "Theoretisch kann ein Agent alles tun, was ein Mensch im Browser tun kann", sagt Vinyals.
AGI und Agenten
Die Vision geht jedoch weiter: DeepMind arbeite daran, den Agenten Fähigkeiten wie Planung, logisches Denken und verschiedene Arten von Gedächtnis zu geben. Vinyals vergleicht dies mit dem menschlichen Gehirn, betont aber, dass künstliche Systeme hier möglicherweise ganz andere, den Computern besser angepasste Wege gehen werden.
Auf die Frage nach der Entwicklung einer Künstlichen Allgemeinen Intelligenz (AGI) zeigt sich Vinyals nachdenklich: "Wenn man mir vor 5 oder 10 Jahren die heutigen Modelle gezeigt hätte, hätte ich gesagt, dass wir kurz vor AGI stehen. Je näher man dran ist, desto mehr Probleme wie Halluzinationen fallen einem auf. Aber wenn man einen Schritt zurücktritt, sieht man, dass wir uns nähern."
DeepMind sieht die ersten Durchbrüche vor allem in wissenschaftlichen Bereichen mit klaren Erfolgskriterien, wie es bei AlphaFold der Fall war. "Wir werden wahrscheinlich zuerst in spezifischen Domänen eine übermenschliche Intelligenz sehen", sagt Vinyals. "War es die Mühe wert, Proteinfaltung zu lösen? Absolut. Das ist ein guter Test für uns."