Neues Framework S* macht KI-Sprachmodelle zu besseren Code-Generatoren

Das neue Framework S* ermöglicht es KI-Sprachmodellen, leistungsfähigeren und zuverlässigeren Code zu generieren.

Forscherinnen und Forscher der University of California, Berkeley, haben ein neues Framework namens S* entwickelt, das die Leistung von KI-Sprachmodellen bei der Codegenerierung verbessert. Im Gegensatz zu früheren Ansätzen kombiniert das Framework parallele und sequentielle Skalierungsansätze und führt einen neuartigen Auswahlmechanismus ein.

Parallele Skalierung - also die Generierung mehrerer Code-Schnipsel gleichzeitig mit anschließender Auswahl der besten Variante - gibt es schon länger. Das Team kombiniert diesen Ansatz jedoch mit einer simultanen sequentiellen Skalierung, bei der die generierten Lösungen durch iteratives Debugging systematisch verbessert werden.

Damit führt das Team in S* eine Variante des Test-Time-Compute als Baustein ein. Im Gegensatz zu aktuellen Reasoning Models (LRMs) wie OpenAI o1 integriert S* eine Form von externem Feedback, ist also nicht auf interne Reasoningketten angewiesen - kann davon aber profitieren. Das Framework ist so kompatibel zu LLMs und LRMs.

S* nutzt LLMs, um Lösungsvorschläge zu filtern

Das zweite Kernelement ist der neuartige Auswahlmechanismus, den das Team als adaptive Input-Synthese bezeichnet. Dabei generiert ein Sprachmodell (im Test war es GPT-4o mini) Testeingaben für die verschiedenen Lösungskandidaten. Indem das Sprachmodell diese Eingaben ausführt und die tatsächlichen Ergebnisse auswertet, trifft es eine zuverlässige Auswahl der besten Lösung.

Das System fordert das KI-Modell auf, Testeingaben zu entwickeln, die besonders geeignet sind, Unterschiede zwischen zwei konkreten Programmlösungen aufzudecken. Das Modell wird dabei durch eine spezielle Eingabeaufforderung geleitet, die es auffordert, Grenzfälle zu berücksichtigen (z. B. leere Eingaben oder Extremwerte), komplexe und schwierige Eingaben zu erzeugen (aber keine übermäßig langen) und Eingaben zu erzeugen, die mögliche Fehler aufdecken können.

Diese generierten Testeingaben werden dann tatsächlich mit beiden Programmen ausgeführt. Die tatsächlichen Ergebnisse dieser Ausführung werden dann wieder dem KI-Modell vorgelegt, damit es auf der Grundlage der tatsächlichen Testergebnisse entscheiden kann, welche Lösung besser ist.

Die Testeingaben werden also gezielt von einem KI-Modell entwickelt, das versteht, welche Art von Eingaben am besten geeignet sein könnten, um Unterschiede zwischen den Programmen aufzudecken.

S* Framework verbessert Leistung kleiner Modelle deutlich

Das Team evaluierten S* auf 12 verschiedenen Sprachmodellen unterschiedlicher Größe und Art. Es zeigte sich eine durchgehende Leistungsverbesserung. So übertrifft Qwen2.5-7B-Coder-Instruct mit S* das Modell Qwen2.5-32B-Coder-Instruct ohne S* um etwa 10 Prozent. Mit dem Framework können kleine Sprachmodelle sogar große LRMs übertreffen:GPT-4o mini mit S* schneidet besser ab als o1-Preview. Aber auch leistungsstarke Reasoning-Modelle werden durch S* weiter verbessert.

Empfehlung

KI-Forschung

Automatisierte Forschung: The AI Scientist generiert Papers für 15 Dollar pro Stück

S* hat aber auch klare Einschränkungen: Das Framework wurde bisher nur für Programmierwettbewerbs-Aufgaben optimiert und nicht für komplexere Software-Engineering-Aufgaben getestet. Zudem liegt der Fokus des Systems ausschließlich auf der Verbesserung der Genauigkeit - die Optimierung des Ressourcenverbrauchs wurde bewusst ausgeklammert.

Die Kombination von iterativen Verbesserungen mit einer Form der Suche ist vermutlich auch einer der Gründe für den Erfolg von OpenAI im ARC-Benchmark. Auch hier stellte das Team viele parallele Anfragen an das Reasoning-Modell o3 und wählte die besten Antworten aus - wie genau ist nicht bekannt. S* folgt einer ähnlichen Idee und könnte so oder in anderer Form in Zukunft bessere Code-Ergebnisse ermöglichen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Neues Framework S* macht KI-Sprachmodelle zu besseren Code-Generatoren

S* nutzt LLMs, um Lösungsvorschläge zu filtern

S* Framework verbessert Leistung kleiner Modelle deutlich

Automatisierte Forschung: The AI Scientist generiert Papers für 15 Dollar pro Stück

Asimov-Agent kombiniert Codeanalyse mit Projektwissen für bessere Entwickler-Assistenz

KI-Start-up Cognition AI übernimmt den Konkurrenten Windsurf

Cursor-Entwickler Anysphere schließt Mega-Finanzierungsrunde ab

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Neues Framework S* macht KI-Sprachmodelle zu besseren Code-Generatoren

S* nutzt LLMs, um Lösungsvorschläge zu filtern

S* Framework verbessert Leistung kleiner Modelle deutlich

Artikel teilen

Bankverbindung