Inhalt
summary Zusammenfassung

Das neue Framework S* ermöglicht es KI-Sprachmodellen, leistungsfähigeren und zuverlässigeren Code zu generieren.

Anzeige

Forscherinnen und Forscher der University of California, Berkeley, haben ein neues Framework namens S* entwickelt, das die Leistung von KI-Sprachmodellen bei der Codegenerierung verbessert. Im Gegensatz zu früheren Ansätzen kombiniert das Framework parallele und sequentielle Skalierungsansätze und führt einen neuartigen Auswahlmechanismus ein.

Parallele Skalierung - also die Generierung mehrerer Code-Schnipsel gleichzeitig mit anschließender Auswahl der besten Variante - gibt es schon länger. Das Team kombiniert diesen Ansatz jedoch mit einer simultanen sequentiellen Skalierung, bei der die generierten Lösungen durch iteratives Debugging systematisch verbessert werden.

Damit führt das Team in S* eine Variante des Test-Time-Compute als Baustein ein. Im Gegensatz zu aktuellen Reasoning Models (LRMs) wie OpenAI o1 integriert S* eine Form von externem Feedback, ist also nicht auf interne Reasoningketten angewiesen - kann davon aber profitieren. Das Framework ist so kompatibel zu LLMs und LRMs.

Anzeige
Anzeige

S* nutzt LLMs, um Lösungsvorschläge zu filtern

Das zweite Kernelement ist der neuartige Auswahlmechanismus, den das Team als adaptive Input-Synthese bezeichnet. Dabei generiert ein Sprachmodell (im Test war es GPT-4o mini) Testeingaben für die verschiedenen Lösungskandidaten. Indem das Sprachmodell diese Eingaben ausführt und die tatsächlichen Ergebnisse auswertet, trifft es eine zuverlässige Auswahl der besten Lösung.

Das System fordert das KI-Modell auf, Testeingaben zu entwickeln, die besonders geeignet sind, Unterschiede zwischen zwei konkreten Programmlösungen aufzudecken. Das Modell wird dabei durch eine spezielle Eingabeaufforderung geleitet, die es auffordert, Grenzfälle zu berücksichtigen (z. B. leere Eingaben oder Extremwerte), komplexe und schwierige Eingaben zu erzeugen (aber keine übermäßig langen) und Eingaben zu erzeugen, die mögliche Fehler aufdecken können.

Diese generierten Testeingaben werden dann tatsächlich mit beiden Programmen ausgeführt. Die tatsächlichen Ergebnisse dieser Ausführung werden dann wieder dem KI-Modell vorgelegt, damit es auf der Grundlage der tatsächlichen Testergebnisse entscheiden kann, welche Lösung besser ist.

Die Testeingaben werden also gezielt von einem KI-Modell entwickelt, das versteht, welche Art von Eingaben am besten geeignet sein könnten, um Unterschiede zwischen den Programmen aufzudecken.

S* Framework verbessert Leistung kleiner Modelle deutlich

Das Team evaluierten S* auf 12 verschiedenen Sprachmodellen unterschiedlicher Größe und Art. Es zeigte sich eine durchgehende Leistungsverbesserung. So übertrifft Qwen2.5-7B-Coder-Instruct mit S* das Modell Qwen2.5-32B-Coder-Instruct ohne S* um etwa 10 Prozent. Mit dem Framework können kleine Sprachmodelle sogar große LRMs übertreffen:GPT-4o mini mit S* schneidet besser ab als o1-Preview. Aber auch leistungsstarke Reasoning-Modelle werden durch S* weiter verbessert.

Empfehlung

S* hat aber auch klare Einschränkungen: Das Framework wurde bisher nur für Programmierwettbewerbs-Aufgaben optimiert und nicht für komplexere Software-Engineering-Aufgaben getestet. Zudem liegt der Fokus des Systems ausschließlich auf der Verbesserung der Genauigkeit - die Optimierung des Ressourcenverbrauchs wurde bewusst ausgeklammert.

Die Kombination von iterativen Verbesserungen mit einer Form der Suche ist vermutlich auch einer der Gründe für den Erfolg von OpenAI im ARC-Benchmark. Auch hier stellte das Team viele parallele Anfragen an das Reasoning-Modell o3 und wählte die besten Antworten aus - wie genau ist nicht bekannt. S* folgt einer ähnlichen Idee und könnte so oder in anderer Form in Zukunft bessere Code-Ergebnisse ermöglichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der University of California, Berkeley haben das Framework S* entwickelt, das die Leistung von KI-Sprachmodellen bei der Codegenerierung verbessert, indem es parallele und sequenzielle Skalierungsansätze kombiniert und einen neuartigen Auswahlmechanismus einführt.
  • S* nutzt ein Sprachmodell, um gezielt Testeingaben zu generieren, die besonders geeignet sind, Unterschiede zwischen verschiedenen Programmlösungen aufzudecken. Die tatsächlichen Ergebnisse dieser Tests werden dann verwendet, um die beste Lösung auszuwählen.
  • In der Evaluation auf 12 verschiedenen Sprachmodellen zeigte S* durchgehend Leistungsverbesserungen. Kleine Modelle mit S* konnten sogar große Reasoning-Modelle ohne S* übertreffen. Allerdings wurde das Framework bisher nur für Programmierwettbewerbs-Aufgaben optimiert und nicht für komplexere Software-Engineering-Aufgaben getestet.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!