KI-Forschung

BigCode entwickelt eine Open Source Code-KI, die das Copyright-Problem löst

Matthias Bastian

DALL-E 2 prompted by THE DECODER

Update
  • Der Programmierer und Rechtsanwalt Matthew Butterick hat Klage gegen Microsoft, Github und OpenAI eingereicht, da GitHub Copilot Code-Ausschnitte von Entwickler:innen ohne Quellangabe wiedergebe und damit gegen Open-Source-Lizenzen verstoße. OpenAIs KI-Modell Codex ist die Grundlage für Copilot.
  • Die Klage beläuft sich auf neun Milliarden US-Dollar Schadensersatz. Ein eher symbolischer Wert, der sich aus hochgerechneten Lizenzverstößen ergibt, denn Butterick geht es laut eigenen Angaben in erster Linie um den Schutz der Open-Source-Szene. Sie wird aus seiner Sicht von Programmier-Tools wie Copilot vereinnahmt und unerlaubt monetarisiert.
  • Die Klage reichte Butterick beim Bundesbezirksgericht für Nord-Kalifornien ein. Die Kanzlei sucht weitere Menschen, die Copilot als Unrecht empfinden.

Code-generierende KI-Systeme sollen Entwicklungsarbeiten beschleunigen. Ein neuer Datensatz liefert die Grundlage für ein Open Source Code-KI-System.

Das KI-Start-up Hugging Face und ServiceNow Research kündigten kürzlich "BigCode" an, ein neues Projekt für eine Open Source Code-KI. Die beiden Unternehmen legen besonderen Wert auf eine "offene und verantwortungsvolle" Entwicklung.

Größer als OpenAI Codex, kleiner als Deepmind AlphaCode

Im ersten Schritt will BigCode einen Datensatz für das Training einer Open Source Code-KI mit 15-Milliarden-Parametern bereitstellen.

OpenAIs Codex-Modell, das die Grundlage von Microsofts Github Copilot ist, hat circa zwölf Milliarden Parameter. Das bislang unveröffentlichte AlphaCode von Deepmind hat 41,4 Milliarden Parameter und soll laut Deepmind auf menschlichem Niveau programmieren können.

Für das Training möchte ServiceNow das eigene GPU-Cluster verwenden. Als Grundlage dient eine adaptierte Version von Nvidias großem Transformer-Sprachmodell Megatron. Das Projekt sucht Unterstützung von KI-Forschenden bei den folgenden Themen:

BigCode will das Copyright-Problem von Code-KIs adressieren

Einen großen Kritikpunkt an Codex und an AlphaCode will BigCode gar nicht erst aufkommen lassen: Die Modelle von OpenAI und Deepmind sind mit Code-Beispielen aus dem Internet trainiert, die zum Teil urheberrechtlich geschützt oder zumindest nicht explizit für das Training einer KI bereitgestellt wurden.

Ähnlich wie bei Kunst- und Text-KIs führt das teils zu Protesten jener Gruppierungen, die sich durch die automatische KI-Generierung übergangen oder beruflich bedroht fühlen. Bei Codex gab es etwa den Fall, dass die KI ganze Code-Paragrafen eines alten Videospiels des Star-Entwicklers John Carmack exakt replizierte.

Der Entwickler und Anwalt Matthew Butterick untersucht derzeit mit einem Team, ob und in welchem Ausmaß Copilot gegen Lizenzbedingungen verstößt und strebt einen Rechtsstreit an. Er sieht in Copilot nur einen bequemeren Zugang zu Open-Source-Code, der jedoch gängige Open-Source-Lizenzbedingungen ignoriert und somit der Szene schadet.

BigCode will beim Thema Copyright von Anfang an für Klarheit sorgen: Alle für das KI-Training verwendeten Beispiele müssen unter der Apache 2.0-Lizenz stehen. Der generierte Code steht ebenfalls unter der Apache 2.0-Lizenz. In Einzelfällen soll es möglich sein, Code unter alternativen Lizenzen zur Verfügung zu stellen.

Der aktuelle Trainingsdatensatz "The Stack" enthält laut des Projekts mehr als drei Terabytes an lizenzierten Quellcode-Dateien für 30 Programmiersprachen, die von GitHub gecrawlt wurden. Entwickelnde, die ihren Code unerlaubt oder unerwünscht im Stack-Datensatz entdecken, können eine Anfrage auf Entfernung stellen.

Github CEO Thomas Dohmke geht davon aus, dass in den nächsten fünf Jahren bis zu 80 Prozent des Codes von KI-Systemen geschrieben werden. Entwickler:innen mit Copilot sollen Aufgaben circa 55 Prozent schneller erledigen können.