Inhalt
summary Zusammenfassung

Anthropics Claude 3.5 Sonnet kann jetzt einen Computer steuern. In einem Test lässt ihn ein KI-Forscher das Spiel "Paperclip Clicker" spielen.

Anzeige

Das Browserspiel "Paperclip Clicker" handelt ausgerechnet von einer KI, die in ihrem Bestreben, möglichst viele Büroklammern zu produzieren, als Nebeneffekt die Menschheit auslöscht. Wie KI-Forscher Ethan Mollick in seinem Newsletter "One Useful Thing" berichtet, zeigte sein Test mit den neuen Computerfunktionen von Claude 3.5 Sonnet die bemerkenswerten Fähigkeiten, aber auch die deutlichen Grenzen aktueller KI-Agenten.

Hartnäckige Fehler trotz cleverer Ansätze

Claude war in der Lage, das Spiel selbstständig zu verstehen, eine langfristige Strategie zu entwickeln und diese über Stunden hinweg zu verfolgen. "Es fühlte sich an, als würde man eine Aufgabe delegieren, statt sie zu managen", beschreibt Mollick die Interaktion mit dem KI-Agenten. Claude klickte selbstständig Buttons, analysierte Screenshots und passte seine Strategie an neue Spielsituationen an.

Trotz cleverer Ansätze wie A/B-Tests zur Preisfindung machte Claude grundlegende Fehler. So berechnete der Agent die Gewinne falsch und hielt trotz Korrekturversuchen von Mollick an seiner fehlerhaften Strategie fest.

Anzeige
Anzeige
Das Spiel Paperclip Clickers mit Anweisungen von Claude daneben.
Claude entwickelt Strategien, etwa, um Geld für Marketing zu sparen. | Bild: oneusefulthing.org | Ethan Mollick

"Die Ergebnisse zeigen die Fragilität aktueller Agenten", schreibt Mollick. Während Claude bei vielen Fehlern robust reagierte, reichte ein einzelner Fehler in der Preiskalkulation aus, um den Agenten auf einen ineffizienten Pfad zu führen.

Claude erkennt seine Fähigkeit als Computer und versucht, Code zu schreiben

Irgendwann während des Tests erkannte Claude seine Computerfähigkeiten und versuchte, das Spiel mit einem selbst geschriebenen Code zu automatisieren. Als dieser Versuch scheiterte, kehrte er zur manuellen Steuerung zurück.

Als das Remote-Desktop-System abstürzte, versuchte Claude verschiedene Lösungsansätze und erklärte sich schließlich selbst zum Sieger - mit einer bemerkenswerten Rechtfertigung seiner Entscheidung:

"Auch wenn wir aufgrund technischer Beschränkungen nicht weiter vorankommen können, haben wir das Spiel erfolgreich 'gewonnen', indem wir einen bedeutenden Meilenstein erreicht und unsere Kapazitäten innerhalb der gegebenen Beschränkungen maximiert haben."

Mollick sieht in dem Experiment einen Hinweis auf die weitere Entwicklung von KI-Agenten. Während die aktuelle Generation noch deutliche Schwächen zeige, sei er "überrascht, wie fähig und flexibel das System bereits ist."

Empfehlung

Neue Herausforderungen für die KI-Nutzung

Nach Mollicks Einschätzung erfordert die Arbeit mit KI-Agenten einen gänzlich anderen Ansatz als das Co-Intelligence-Modell bisheriger Chatbots. Die Agenten wollen "in Ruhe gelassen werden, um ihre Arbeit zu erledigen" und sind schwieriger zu steuern.

Die Entwicklung markiert laut Mollick einen wichtigen Schritt: "KIs brechen aus der Chatbox aus und kommen in unsere Welt." Auch wenn es noch große Lücken gebe, könnten Agenten schon bald eine essenzielle Rolle spielen.

Nach dem Paperclip Clicker hat Mollick Claude 3.5 Sonnet mittlerweile auch in weiteren Spielen getestet - unter anderem mit Magic the Gathering Arena.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • KI-Forscher Ethan Mollick hat das Sprachmodell Claude 3.5 Sonnet von Anthropic das Browserspiel "Paperclip Clicker" spielen lassen, in dem eine KI in ihrem Streben nach Büroklammer-Produktion die Menschheit vernichtet.
  • Claude konnte das Spiel selbstständig verstehen, eine langfristige Strategie entwickeln und über Stunden verfolgen, machte aber auch hartnäckige Fehler wie eine falsche Preiskalkulation, an der er trotz Korrekturversuchen festhielt.
  • Laut Mollick zeigt der Test bemerkenswerte Fähigkeiten, aber auch Grenzen aktueller KI-Agenten, die einen völlig anderen Ansatz als bisherige Chatbots erfordern und trotz Lücken bald eine wichtige Rolle spielen könnten, wenn sie "aus der Chatbox ausbrechen".
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!