Sakana AIs KI-Agent schafft es unter die besten 21 von 1000 Code-Experten

Das japanische Unternehmen Sakana AI hat einen KI-Agenten entwickelt, der komplexe Optimierungsprobleme aus der Industrie lösen kann. In einem Live-Test trat die KI gegen mehr als 1000 menschliche Expert:innen an.

Der ALE-Agent von Sakana AI belegte bei der 47. Ausgabe des AtCoder Heuristic Contest den 21. Platz und bewies damit, dass KI-Systeme bei anspruchsvollen Programmieraufgaben mit menschlichen Expert:innen konkurrieren können.

AtCoder ist eine japanische Plattform für Programmierwettbewerbe, bei denen Teilnehmer:innen komplexe mathematische Probleme durch Code lösen müssen. Die Probleme sind sogenannte "NP-harte" Aufgaben, für die es keine bekannten effizienten Lösungsverfahren gibt.

Die Aufgaben spiegeln reale industrielle Herausforderungen wider: Routenplanung für Lieferfahrzeuge, optimale Arbeitsschichtaufteilung, Produktionsorganisation in Fabriken und Stromnetze-Balancing. Menschliche Teilnehmer:innen investieren normalerweise erhebliche Anstrengungen über Wochen, um ihre Lösungen zu verbessern.

Der Erfolg basiert auf ALE-Bench, dem laut Sakana AI ersten Benchmark für Score-basierte algorithmische Programmierung. Der Benchmark umfasst 40 schwere Optimierungsprobleme aus vergangenen AtCoder Heuristic Contests. Anders als bisherige Tests, die nur richtig oder falsch bewerten, erfordert ALE-Bench kontinuierliche Lösungsverbesserung über längere Zeiträume.

Zweiteilige Grafik: links neun NP-harte AtCoder-Aufgaben (Routing, Scheduling etc.), rechts Framework mit Problem-, Scorer- und Visualizer-Modulen, Code-Sandbox und Leaderboard sowie LLM-Agenten-Pipeline. — ALE-Bench kombiniert NP-schwere AtCoder-Heuristic-Contest-Aufgaben mit einem modularen Agenten-Framework, in dem LLMs durch Code-Einreichungen, Testläufe und Visualisierungen iterativ Lösungen optimieren und sich über ein Leaderboard messen. | Bild: Sakana AI

KI-Agent kombiniert Fachwissen mit systematischer Suche

Der ALE-Agent basiert auf Googles Sprachmodell Gemini 2.5 Pro und kombiniert zwei Hauptansätze. Die erste Methode fügt Expertenwissen über bewährte Lösungsverfahren direkt in die Anweisungen an die KI ein. Dazu gehören Techniken wie "Simulated Annealing" (simulierte Abkühlung), ein Verfahren, das zufällige Änderungen an einer Lösung testet und schlechtere Lösungen manchmal akzeptiert, um aus lokalen Sackgassen herauszufinden.

ALE-Agent Codevergleich Initial vs Final: einfache vs PROB-Moves, Score 4,9 Mio.→6,2 Mio. — Unter anderem das "Simulated Annealing" verbesserte die Wertung des ALE-Agents. | Bild: Sakana AI

Die zweite Methode verwendet einen systematischen Suchalgorithmus namens "Best-First-Search". Dieser wählt immer die vielversprechendste Teillösung aus und entwickelt sie weiter. Der Agent erweitert diesen Ansatz um eine "Beam-Search"-ähnliche Expansion und verfolgt gleichzeitig 30 verschiedene Lösungsansätze parallel. Zusätzlich verwendet der Agent einen "Tabu-Search"-Mechanismus, der bereits getestete Lösungswege speichert und deren Wiederholung verhindert.

KI übertrifft Menschen durch hohe Anzahl an Versuchen

In Experimenten erreichte das beste getestete Modell o4-mini-high mit sequenziellen Verbesserungen 1.411 Punkte. GPT-4.1 mini brachte es unter den gleichen Voraussetzungen auf 1.016 Punkte, Deepseek-R1 auf 1.150 Punkte und Gemini 2.5 Pro auf 1.198 Punkte.

Der vollständige ALE-Agent übertraf diese Ergebnisse mit 1.879 Punkten, was wiederum den besten 6,8 Prozent entspricht. Bei einem spezifischen Problem erzielte der Agent 2.880 Punkte, was dem 5. Platz im ursprünglichen Wettbewerb entsprochen hätte.

Empfehlung

KI-Forschung

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

Balkendiagramm: ALE-Bench-Ergebnisse fünf KI-Modelle; ALE-Agent erreicht 1879 Punkte (Top 6,8 %) vs. 1016–1411 Punkte bei anderen. — Mit 1.879 Punkten setzt sich ALE-Agent deutlich an die Spitze im ALE-Bench. | Bild: Sakana AI

Die Analyse zeigt einen weiteren wichtigen Unterschied zwischen KI und menschlichen Problemlösern: die Geschwindigkeit. Während Menschen in einem vierstündigen Wettbewerb höchstens etwa zwölf verschiedene Code-Versionen ausprobieren können, schafft die KI von Sakana AI etwa 100 Überarbeitungen. Der ALE-Agent generierte sogar Hunderte oder Tausende potenzielle Lösungen.

Benchmark als Grundlage für weitere KI-Entwicklung

ALE-Bench ist als Python-Bibliothek verfügbar und bietet eine "Code-Sandbox", eine isolierte Umgebung zur sicheren Code-Ausführung. Das Framework unterstützt die Programmiersprachen C++, Python und Rust und läuft auf standardisierten Amazon-Cloud-Servern.

Sakana AI entwickelte den Benchmark in Zusammenarbeit mit AtCoder Inc. Die Daten von 40 Wettbewerbsproblemen sind auf Hugging Face und der nötige Code auf GitHub öffentlich verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Sakana AIs KI-Agent schafft es unter die besten 21 von 1000 Code-Experten

KI-Agent kombiniert Fachwissen mit systematischer Suche

KI übertrifft Menschen durch hohe Anzahl an Versuchen

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

Benchmark als Grundlage für weitere KI-Entwicklung

Sakana AI stellt KI-Agenten vor, die sich selbst verbessern

Japanisches KI-Start-up stellt KI-System vor, das wie ein Gehirn in Zeitschritten denkt

KI-System schreibt Paper, das Peer-Review-Verfahren besteht

MIT-Studie zeigt "kognitive Schuld" durch ChatGPT - was das für die Praxis bedeutet

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Alle Apple-Intelligence-Updates von der WWDC 25 auf einen Blick

Sakana AIs KI-Agent schafft es unter die besten 21 von 1000 Code-Experten

KI-Agent kombiniert Fachwissen mit systematischer Suche

KI übertrifft Menschen durch hohe Anzahl an Versuchen

Benchmark als Grundlage für weitere KI-Entwicklung

Artikel teilen

Bankverbindung