- Die Open-Source-Entwicklung bewegt sich wie gewohnt rasch: Die Entwickler von WizardLM stellen das feingetunte Code-Llama WizardCoder-34B vor, das im HumanEval im ersten Durchgang 73,2 Prozent erreichen soll.
- WizardLM weist außerdem darauf hin, dass die Ende August via API getestete GPT-4-Version im HumanEval einen Wert von 82 und GPT-3.5 von 72,5 erreichen soll.
- WizardCoder-34B ist auf Github verfügbar.
Kurz nach der Veröffentlichung des Code-Modells "Code Llama" von Meta versucht sich die Open-Source-Community am Feintuning - und erzielt gleich einen neuen Bestwert, der den GPT-4 von OpenAI übertrifft.
Das auf KI-Co-Programmierung spezialisierte Start-up Phind hat nach eigenen Angaben mit einer feingetunten 34B-Code-Llama-Variante einen neuen Bestwert im Benchmark HumanEval erzielt, einem wichtigen Evaluierungstest für KI-Programmierungstätigkeiten.
Im ersten Durchlauf erreichten die verfeinerten Standard- und Python-Modelle 67,6 bzw. 69,5 Prozent. OpenAIs GPT-4 erreichte zum Veröffentlichungszeitpunkt im März 67 Prozent im gleichen Benchmark. Das Standard-Code-Lama-Modell mit 34 Milliarden Parametern kommt laut Meta auf 48,8 Prozent, die Python-Variante auf 53,7 Prozent.
Modell | HumanEval Ergebnis |
---|---|
Phind 34B Standard-Modell | 67.6 Prozent |
Phind 34B Python-Modell | 69.5 Prozent |
GPT-4 (OpenAI-Modell) | 67 Prozent |
Meta Code-Llama 34B | 48.8 Prozent |
Meta Code-Llama 34B Python | 53.7 Prozent |
Meta Unnatural Code Llama (not released) | 62 Prozent |
Die beiden Phind-Modelle wurden an einem eigens entwickelten Datensatz mit rund 80.000 hochwertigen Programmieraufgaben und Lösungen nativ feingetunt. Laut Phind hatte auch Meta bereits eine verfeinerte Variante von Code Llama mit einer Erfolgsquote von 62 Prozent trainiert. Meta verwendete jedoch nur 15.000 Beispiele für das Feintuning von "Unnatural Code Llama".
Die Phind-Modelle wurden mit 32 A100-80 GB GPUs und einer Sequenzlänge von 4096 Token in drei Stunden trainiert. Die Forscher verwendeten DeepSpeed ZeRO 3 und Flash Attention 2 für ein schnelleres und effizienteres Training.
Phind veröffentlicht beide Modelle unter der Llama-Lizenz auf Huggingface.
Open-Source-Gemeinschaft beschleunigt Metas KI-Entwicklung
Die Llama-Lizenz erlaubt die wissenschaftliche und kommerzielle Nutzung, letztere jedoch mit Einschränkungen, da für die Nutzung in weit verbreiteten Anwendungen eine besondere Lizenz benötigt wird. Außerdem dürfen mit Llama 2 erzeugte Daten nicht für das Training neuer KI-Modelle verwendet werden.
Auch für das Sprachmodell Llama 2 von Meta gibt es inzwischen zahlreiche Weiterentwicklungen, die die ursprüngliche Veröffentlichung von Meta in Benchmarks übertreffen. Dies dürfte auch das Ziel von Meta sein: Die Open-Source-Community trägt mit ihrer Arbeit dazu bei, dass Meta-Modelle schneller besser werden.