BigCode entwickelt eine Open Source Code-KI, die das Copyright-Problem löst
Kurz & Knapp
- BigCode ist ein Open-Source-Projekt für die Entwicklung einer Code-KI. Das Modell soll mehr Parameter haben als OpenAIs Codex.
- Grundlage für das KI-Training ist der Code-Datensatz "The Stack" mit mehr als drei Terabytes Code-Beispielen von Github.
- BigCode legt besonderen Wert darauf, dass The Stack keine Urheberrechte verletzt, wie es bei Codex und Deepminds AlphaCode diskutiert wird.
Update –
- Der Programmierer und Rechtsanwalt Matthew Butterick hat Klage gegen Microsoft, Github und OpenAI eingereicht, da GitHub Copilot Code-Ausschnitte von Entwickler:innen ohne Quellangabe wiedergebe und damit gegen Open-Source-Lizenzen verstoße. OpenAIs KI-Modell Codex ist die Grundlage für Copilot.
- Die Klage beläuft sich auf neun Milliarden US-Dollar Schadensersatz. Ein eher symbolischer Wert, der sich aus hochgerechneten Lizenzverstößen ergibt, denn Butterick geht es laut eigenen Angaben in erster Linie um den Schutz der Open-Source-Szene. Sie wird aus seiner Sicht von Programmier-Tools wie Copilot vereinnahmt und unerlaubt monetarisiert.
- Die Klage reichte Butterick beim Bundesbezirksgericht für Nord-Kalifornien ein. Die Kanzlei sucht weitere Menschen, die Copilot als Unrecht empfinden.
Code-generierende KI-Systeme sollen Entwicklungsarbeiten beschleunigen. Ein neuer Datensatz liefert die Grundlage für ein Open Source Code-KI-System.
Das KI-Start-up Hugging Face und ServiceNow Research kündigten kürzlich "BigCode" an, ein neues Projekt für eine Open Source Code-KI. Die beiden Unternehmen legen besonderen Wert auf eine "offene und verantwortungsvolle" Entwicklung.
Größer als OpenAI Codex, kleiner als Deepmind AlphaCode
Im ersten Schritt will BigCode einen Datensatz für das Training einer Open Source Code-KI mit 15-Milliarden-Parametern bereitstellen.
OpenAIs Codex-Modell, das die Grundlage von Microsofts Github Copilot ist, hat circa zwölf Milliarden Parameter. Das bislang unveröffentlichte AlphaCode von Deepmind hat 41,4 Milliarden Parameter und soll laut Deepmind auf menschlichem Niveau programmieren können.
Für das Training möchte ServiceNow das eigene GPU-Cluster verwenden. Als Grundlage dient eine adaptierte Version von Nvidias großem Transformer-Sprachmodell Megatron. Das Projekt sucht Unterstützung von KI-Forschenden bei den folgenden Themen:
- Eine repräsentative Evaluierungssuite für Code-LLMs, die eine Vielzahl von Aufgaben und Programmiersprachen abdeckt
- Verantwortungsvolle Datenverwaltung und -entwicklung für Code-LLMs
- Schnelleres Training und Inferenzmethoden für LLMs
BigCode will das Copyright-Problem von Code-KIs adressieren
Einen großen Kritikpunkt an Codex und an AlphaCode will BigCode gar nicht erst aufkommen lassen: Die Modelle von OpenAI und Deepmind sind mit Code-Beispielen aus dem Internet trainiert, die zum Teil urheberrechtlich geschützt oder zumindest nicht explizit für das Training einer KI bereitgestellt wurden.
Ähnlich wie bei Kunst- und Text-KIs führt das teils zu Protesten jener Gruppierungen, die sich durch die automatische KI-Generierung übergangen oder beruflich bedroht fühlen. Bei Codex gab es etwa den Fall, dass die KI ganze Code-Paragrafen eines alten Videospiels des Star-Entwicklers John Carmack exakt replizierte.
Der Entwickler und Anwalt Matthew Butterick untersucht derzeit mit einem Team, ob und in welchem Ausmaß Copilot gegen Lizenzbedingungen verstößt und strebt einen Rechtsstreit an. Er sieht in Copilot nur einen bequemeren Zugang zu Open-Source-Code, der jedoch gängige Open-Source-Lizenzbedingungen ignoriert und somit der Szene schadet.
BigCode will beim Thema Copyright von Anfang an für Klarheit sorgen: Alle für das KI-Training verwendeten Beispiele müssen unter der Apache 2.0-Lizenz stehen. Der generierte Code steht ebenfalls unter der Apache 2.0-Lizenz. In Einzelfällen soll es möglich sein, Code unter alternativen Lizenzen zur Verfügung zu stellen.
Der aktuelle Trainingsdatensatz "The Stack" enthält laut des Projekts mehr als drei Terabytes an lizenzierten Quellcode-Dateien für 30 Programmiersprachen, die von GitHub gecrawlt wurden. Entwickelnde, die ihren Code unerlaubt oder unerwünscht im Stack-Datensatz entdecken, können eine Anfrage auf Entfernung stellen.
Github CEO Thomas Dohmke geht davon aus, dass in den nächsten fünf Jahren bis zu 80 Prozent des Codes von KI-Systemen geschrieben werden. Entwickler:innen mit Copilot sollen Aufgaben circa 55 Prozent schneller erledigen können.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.