Feingetuntes Meta Code-Llama übertrifft GPT-4 in wichtigem Benchmark

26. August 2023

Midjourney prompted by THE DECODER

Update – 26. August 2023

Die Open-Source-Entwicklung bewegt sich wie gewohnt rasch: Die Entwickler von WizardLM stellen das feingetunte Code-Llama WizardCoder-34B vor, das im HumanEval im ersten Durchgang 73,2 Prozent erreichen soll.
WizardLM weist außerdem darauf hin, dass die Ende August via API getestete GPT-4-Version im HumanEval einen Wert von 82 und GPT-3.5 von 72,5 erreichen soll.
WizardCoder-34B ist auf Github verfügbar.

Kurz nach der Veröffentlichung des Code-Modells "Code Llama" von Meta versucht sich die Open-Source-Community am Feintuning - und erzielt gleich einen neuen Bestwert, der den GPT-4 von OpenAI übertrifft.

Das auf KI-Co-Programmierung spezialisierte Start-up Phind hat nach eigenen Angaben mit einer feingetunten 34B-Code-Llama-Variante einen neuen Bestwert im Benchmark HumanEval erzielt, einem wichtigen Evaluierungstest für KI-Programmierungstätigkeiten.

Im ersten Durchlauf erreichten die verfeinerten Standard- und Python-Modelle 67,6 bzw. 69,5 Prozent. OpenAIs GPT-4 erreichte zum Veröffentlichungszeitpunkt im März 67 Prozent im gleichen Benchmark. Das Standard-Code-Lama-Modell mit 34 Milliarden Parametern kommt laut Meta auf 48,8 Prozent, die Python-Variante auf 53,7 Prozent.

Modell	HumanEval Ergebnis
Phind 34B Standard-Modell	67.6 Prozent
Phind 34B Python-Modell	69.5 Prozent
GPT-4 (OpenAI-Modell)	67 Prozent
Meta Code-Llama 34B	48.8 Prozent
Meta Code-Llama 34B Python	53.7 Prozent
Meta Unnatural Code Llama (not released)	62 Prozent

Die beiden Phind-Modelle wurden an einem eigens entwickelten Datensatz mit rund 80.000 hochwertigen Programmieraufgaben und Lösungen nativ feingetunt. Laut Phind hatte auch Meta bereits eine verfeinerte Variante von Code Llama mit einer Erfolgsquote von 62 Prozent trainiert. Meta verwendete jedoch nur 15.000 Beispiele für das Feintuning von "Unnatural Code Llama".

Die Phind-Modelle wurden mit 32 A100-80 GB GPUs und einer Sequenzlänge von 4096 Token in drei Stunden trainiert. Die Forscher verwendeten DeepSpeed ZeRO 3 und Flash Attention 2 für ein schnelleres und effizienteres Training.

Phind veröffentlicht beide Modelle unter der Llama-Lizenz auf Huggingface.

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

Die Llama-Lizenz erlaubt die wissenschaftliche und kommerzielle Nutzung, letztere jedoch mit Einschränkungen, da für die Nutzung in weit verbreiteten Anwendungen eine besondere Lizenz benötigt wird. Außerdem dürfen mit Llama 2 erzeugte Daten nicht für das Training neuer KI-Modelle verwendet werden.

Auch für das Sprachmodell Llama 2 von Meta gibt es inzwischen zahlreiche Weiterentwicklungen, die die ursprüngliche Veröffentlichung von Meta in Benchmarks übertreffen. Dies dürfte auch das Ziel von Meta sein: Die Open-Source-Community trägt mit ihrer Arbeit dazu bei, dass Meta-Modelle schneller besser werden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Feingetuntes Meta Code-Llama übertrifft GPT-4 in wichtigem Benchmark

Update – 26. August 2023

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.