Inhalt
summary Zusammenfassung

Agentica und Together AI veröffentlichen mit DeepCoder-14B ein neues offenes KI-Modell für Programmieraufgaben. Nach Angaben der Entwickler:innen soll es die Leistung proprietärer Systeme erreichen.

Anzeige

Der Trend zu kompakten Sprachmodellen mit offenen Trainingsdaten setzt sich im neuesten Modell von Together AI fort. Im LiveCodeBench-Test liegt DeepCoder-14B angeblich auf dem Niveau von OpenAIs geschlossenem o3-mini-Modell, ist aber mutmaßlich deutlich kleiner und damit auch auf weniger leistungsfähiger Infrastruktur einsetzbar.

Streudiagramm: LiveCodeBench Pass@1 Genauigkeit vs. Modellgröße, DeepCoder konkurriert mit großen Modellen bei kleiner Parameteranzahl,.
Trotz geringerer Parameteranzahl erreicht DeepCoder eine ähnliche Performance wie fortschrittliche Reasoning-Modelle wie o3-mini (low) und o1.

Für das Training stellten die Forschenden einen Datensatz aus 24.000 Programmieraufgaben aus drei Quellen zusammen: dem TACO-Verified-Datensatz mit 7.500 Problemen, PrimeIntellects SYNTHETIC-1 mit 16.000 Problemen sowie 600 LiveCodeBench-Problemen.

Um die Datenqualität zu gewährleisten, musste laut den Entwickler:innen jede Aufgabe mindestens fünf Testfälle enthalten und eine verifizierte Lösung aufweisen. Bekannte Datensätze wie KodCode und LeetCode seien als zu einfach eingestuft worden, andere hätten zu viele fehlerhafte oder fehlende Testfälle enthalten. Das Training erfolgte den Angaben zufolge über zweieinhalb Wochen auf 32 H100-GPUs von Nvidia.

Anzeige
Anzeige

Für das Training nutze das System eine "sparse Outcome Reward"-Funktion: Das Modell erhalte nur dann eine Belohnung, wenn der generierte Code alle Testfälle bestehe. Bei Problemen mit sehr vielen Tests würden die 15 anspruchsvollsten ausgewählt.

Schrittweise Erweiterung des Kontextfensters und längere Antworten

Das Kontextfenster des Modells wurde nach Angaben der Entwickler:innen schrittweise von 16.000 auf 32.000 Token erweitert. Bei Tests mit einem 16.000-Token-Fenster habe das System eine Genauigkeit von 54 Prozent erreicht, bei 32.000 Token seien es 58 Prozent gewesen. Mit einem auf 64.000 Token erweiterten Kontextfenster habe das Modell schließlich mit 60,6 Prozent seinen Spitzenwert erreicht.

Liniendiagramm: Verlauf von Belohnungen, Antwortlänge und Kontextfenster während des Trainings des
Das Diagramm zeigt die Entwicklung der durchschnittlichen Belohnungen, der Antwortlänge und des Kontextfensters (16K - 32K Token) während des Trainings des DeepCoder-Modells. | Bild: Together AI

Diese Skalierung unterscheide das System von anderen Modellen wie DeepSeek-R1-Distill-Qwen-14B, auf dem DeepCoder-14B basiert und deren Leistung bei größeren Kontextfenstern stagniere. Die durchschnittliche Antwortlänge des Modells sei während des Trainings von 8.000 auf 17.500 Token gewachsen.

Neben der Programmierung soll das Modell auch bei mathematischen Aufgaben gute Ergebnisse erzielen. Bei AIME2024 habe es nach Angaben der Entwickler eine Genauigkeit von 73,8 Prozent erreicht - eine Verbesserung von 4,1 Prozent gegenüber dem Basismodell.

Die Entwickler:innen setzen nach eigenen Angaben auf ein neues Verfahren namens "One-Off Pipelining". Dieses soll die Trainingszeit halbieren, indem es Training, Belohnungsberechnung und Sampling parallel durchführt. Pro Trainingsiteration müssten über tausend Tests ausgeführt werden.

Empfehlung

Code, Gewichte, Trainingsdaten und -logs sowie Systemoptimierungen sollen wie auch bei vorherigen Modellen von Together AI der Open-Source-Community zur Verfügung gestellt werden. OpenAI hatte kürzlich angekündigt, sich bald wieder auf seine Anfänge zu besinnen und ebenfalls ein zumindest gewichtsoffenes Reasoning-System zu veröffentlichen. Together AI geht mit der Veröffentlichung des Trainingsdatensatzes und der nötigen Rezepte noch einen Schritt weiter.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Together AI und Agentica stellen DeepCoder-14B vor, ein Open-Source-KI-Modell für Code, das mit 24.000 sorgfältig ausgewählten Programmieraufgaben trainiert wurde.
  • Es erreicht in Benchmarks eine ähnliche Leistung wie das Modell o3-mini (low) von OpenAI. Mit nur 14 Milliarden Parametern ist es jedoch sehr schlank und benötigt keinen Supercomputer zur Ausführung.
  • Die Entwickler veröffentlichen neben den Modellgewichten auch den kompletten Code, Trainingsdaten und -logs sowie Systemoptimierungen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!