Feingetuntes Meta Code-Llama übertrifft GPT-4 in wichtigem Benchmark

Midjourney prompted by THE DECODER

Update

Die Open-Source-Entwicklung bewegt sich wie gewohnt rasch: Die Entwickler von WizardLM stellen das feingetunte Code-Llama WizardCoder-34B vor, das im HumanEval im ersten Durchgang 73,2 Prozent erreichen soll.
WizardLM weist außerdem darauf hin, dass die Ende August via API getestete GPT-4-Version im HumanEval einen Wert von 82 und GPT-3.5 von 72,5 erreichen soll.
WizardCoder-34B ist auf Github verfügbar.

Kurz nach der Veröffentlichung des Code-Modells "Code Llama" von Meta versucht sich die Open-Source-Community am Feintuning - und erzielt gleich einen neuen Bestwert, der den GPT-4 von OpenAI übertrifft.

Das auf KI-Co-Programmierung spezialisierte Start-up Phind hat nach eigenen Angaben mit einer feingetunten 34B-Code-Llama-Variante einen neuen Bestwert im Benchmark HumanEval erzielt, einem wichtigen Evaluierungstest für KI-Programmierungstätigkeiten.

Im ersten Durchlauf erreichten die verfeinerten Standard- und Python-Modelle 67,6 bzw. 69,5 Prozent. OpenAIs GPT-4 erreichte zum Veröffentlichungszeitpunkt im März 67 Prozent im gleichen Benchmark. Das Standard-Code-Lama-Modell mit 34 Milliarden Parametern kommt laut Meta auf 48,8 Prozent, die Python-Variante auf 53,7 Prozent.

Modell	HumanEval Ergebnis
Phind 34B Standard-Modell	67.6 Prozent
Phind 34B Python-Modell	69.5 Prozent
GPT-4 (OpenAI-Modell)	67 Prozent
Meta Code-Llama 34B	48.8 Prozent
Meta Code-Llama 34B Python	53.7 Prozent
Meta Unnatural Code Llama (not released)	62 Prozent

Die beiden Phind-Modelle wurden an einem eigens entwickelten Datensatz mit rund 80.000 hochwertigen Programmieraufgaben und Lösungen nativ feingetunt. Laut Phind hatte auch Meta bereits eine verfeinerte Variante von Code Llama mit einer Erfolgsquote von 62 Prozent trainiert. Meta verwendete jedoch nur 15.000 Beispiele für das Feintuning von "Unnatural Code Llama".

Die Phind-Modelle wurden mit 32 A100-80 GB GPUs und einer Sequenzlänge von 4096 Token in drei Stunden trainiert. Die Forscher verwendeten DeepSpeed ZeRO 3 und Flash Attention 2 für ein schnelleres und effizienteres Training.

Phind veröffentlicht beide Modelle unter der Llama-Lizenz auf Huggingface.

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

Die Llama-Lizenz erlaubt die wissenschaftliche und kommerzielle Nutzung, letztere jedoch mit Einschränkungen, da für die Nutzung in weit verbreiteten Anwendungen eine besondere Lizenz benötigt wird. Außerdem dürfen mit Llama 2 erzeugte Daten nicht für das Training neuer KI-Modelle verwendet werden.

Auch für das Sprachmodell Llama 2 von Meta gibt es inzwischen zahlreiche Weiterentwicklungen, die die ursprüngliche Veröffentlichung von Meta in Benchmarks übertreffen. Dies dürfte auch das Ziel von Meta sein: Die Open-Source-Community trägt mit ihrer Arbeit dazu bei, dass Meta-Modelle schneller besser werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Feingetuntes Meta Code-Llama übertrifft GPT-4 in wichtigem Benchmark

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

ChatGPT Voice kann laut Studie mit kreativen Geschichten gehackt werden

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Feingetuntes Meta Code-Llama übertrifft GPT-4 in wichtigem Benchmark

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

ChatGPT Voice kann laut Studie mit kreativen Geschichten gehackt werden