Inhalt
summary Zusammenfassung
Update
  • Die Open-Source-Entwicklung bewegt sich wie gewohnt rasch: Die Entwickler von WizardLM stellen das feingetunte Code-Llama WizardCoder-34B vor, das im HumanEval im ersten Durchgang 73,2 Prozent erreichen soll.
  • WizardLM weist außerdem darauf hin, dass die Ende August via API getestete GPT-4-Version im HumanEval einen Wert von 82 und GPT-3.5 von 72,5 erreichen soll.
  • WizardCoder-34B ist auf Github verfügbar.

Kurz nach der Veröffentlichung des Code-Modells "Code Llama" von Meta versucht sich die Open-Source-Community am Feintuning - und erzielt gleich einen neuen Bestwert, der den GPT-4 von OpenAI übertrifft.

Anzeige

Das auf KI-Co-Programmierung spezialisierte Start-up Phind hat nach eigenen Angaben mit einer feingetunten 34B-Code-Llama-Variante einen neuen Bestwert im Benchmark HumanEval erzielt, einem wichtigen Evaluierungstest für KI-Programmierungstätigkeiten.

Im ersten Durchlauf erreichten die verfeinerten Standard- und Python-Modelle 67,6 bzw. 69,5 Prozent. OpenAIs GPT-4 erreichte zum Veröffentlichungszeitpunkt im März 67 Prozent im gleichen Benchmark. Das Standard-Code-Lama-Modell mit 34 Milliarden Parametern kommt laut Meta auf 48,8 Prozent, die Python-Variante auf 53,7 Prozent.

Modell HumanEval Ergebnis
Phind 34B Standard-Modell 67.6 Prozent
Phind 34B Python-Modell 69.5 Prozent
GPT-4 (OpenAI-Modell) 67 Prozent
Meta Code-Llama 34B 48.8 Prozent
Meta Code-Llama 34B Python 53.7 Prozent
Meta Unnatural Code Llama (not released) 62 Prozent

Die beiden Phind-Modelle wurden an einem eigens entwickelten Datensatz mit rund 80.000 hochwertigen Programmieraufgaben und Lösungen nativ feingetunt. Laut Phind hatte auch Meta bereits eine verfeinerte Variante von Code Llama mit einer Erfolgsquote von 62 Prozent trainiert. Meta verwendete jedoch nur 15.000 Beispiele für das Feintuning von "Unnatural Code Llama".

Anzeige
Anzeige

Die Phind-Modelle wurden mit 32 A100-80 GB GPUs und einer Sequenzlänge von 4096 Token in drei Stunden trainiert. Die Forscher verwendeten DeepSpeed ZeRO 3 und Flash Attention 2 für ein schnelleres und effizienteres Training.

Phind veröffentlicht beide Modelle unter der Llama-Lizenz auf Huggingface.

Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung

Die Llama-Lizenz erlaubt die wissenschaftliche und kommerzielle Nutzung, letztere jedoch mit Einschränkungen, da für die Nutzung in weit verbreiteten Anwendungen eine besondere Lizenz benötigt wird. Außerdem dürfen mit Llama 2 erzeugte Daten nicht für das Training neuer KI-Modelle verwendet werden.

Auch für das Sprachmodell Llama 2 von Meta gibt es inzwischen zahlreiche Weiterentwicklungen, die die ursprüngliche Veröffentlichung von Meta in Benchmarks übertreffen. Dies dürfte auch das Ziel von Meta sein: Die Open-Source-Community trägt mit ihrer Arbeit dazu bei, dass Meta-Modelle schneller besser werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die von Phind optimierten Modelle CodeLlama-34B und CodeLlama-34B-Python zeigen nach dem Feintuning eine bessere Leistung im HumanEval Benchmark als GPT-4.
  • Die Entwickler verwendeten einen speziell erstellten Datensatz mit 80.000 qualitativ hochwertigen Programmieraufgaben und Lösungen sowie die Dekontaminierungsverfahren von OpenAI, um die Gültigkeit der Ergebnisse sicherzustellen.
  • Beide Modelle stehen nun auf der Huggingface-Plattform zur unabhängigen Überprüfung und Unterstützung durch die Open-Source-Gemeinschaft zur Verfügung.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!