Inhalt
summary Zusammenfassung
Update
  • Der Programmierer und Rechtsanwalt Matthew Butterick hat Klage gegen Microsoft, Github und OpenAI eingereicht, da GitHub Copilot Code-Ausschnitte von Entwickler:innen ohne Quellangabe wiedergebe und damit gegen Open-Source-Lizenzen verstoße. OpenAIs KI-Modell Codex ist die Grundlage für Copilot.
  • Die Klage beläuft sich auf neun Milliarden US-Dollar Schadensersatz. Ein eher symbolischer Wert, der sich aus hochgerechneten Lizenzverstößen ergibt, denn Butterick geht es laut eigenen Angaben in erster Linie um den Schutz der Open-Source-Szene. Sie wird aus seiner Sicht von Programmier-Tools wie Copilot vereinnahmt und unerlaubt monetarisiert.
  • Die Klage reichte Butterick beim Bundesbezirksgericht für Nord-Kalifornien ein. Die Kanzlei sucht weitere Menschen, die Copilot als Unrecht empfinden.

Code-generierende KI-Systeme sollen Entwicklungsarbeiten beschleunigen. Ein neuer Datensatz liefert die Grundlage für ein Open Source Code-KI-System.

Das KI-Start-up Hugging Face und ServiceNow Research kündigten kürzlich "BigCode" an, ein neues Projekt für eine Open Source Code-KI. Die beiden Unternehmen legen besonderen Wert auf eine "offene und verantwortungsvolle" Entwicklung.

Größer als OpenAI Codex, kleiner als Deepmind AlphaCode

Im ersten Schritt will BigCode einen Datensatz für das Training einer Open Source Code-KI mit 15-Milliarden-Parametern bereitstellen.

OpenAIs Codex-Modell, das die Grundlage von Microsofts Github Copilot ist, hat circa zwölf Milliarden Parameter. Das bislang unveröffentlichte AlphaCode von Deepmind hat 41,4 Milliarden Parameter und soll laut Deepmind auf menschlichem Niveau programmieren können.

Anzeige
Anzeige

Für das Training möchte ServiceNow das eigene GPU-Cluster verwenden. Als Grundlage dient eine adaptierte Version von Nvidias großem Transformer-Sprachmodell Megatron. Das Projekt sucht Unterstützung von KI-Forschenden bei den folgenden Themen:

  • Eine repräsentative Evaluierungssuite für Code-LLMs, die eine Vielzahl von Aufgaben und Programmiersprachen abdeckt
  • Verantwortungsvolle Datenverwaltung und -entwicklung für Code-LLMs
  • Schnelleres Training und Inferenzmethoden für LLMs

BigCode will das Copyright-Problem von Code-KIs adressieren

Einen großen Kritikpunkt an Codex und an AlphaCode will BigCode gar nicht erst aufkommen lassen: Die Modelle von OpenAI und Deepmind sind mit Code-Beispielen aus dem Internet trainiert, die zum Teil urheberrechtlich geschützt oder zumindest nicht explizit für das Training einer KI bereitgestellt wurden.

Ähnlich wie bei Kunst- und Text-KIs führt das teils zu Protesten jener Gruppierungen, die sich durch die automatische KI-Generierung übergangen oder beruflich bedroht fühlen. Bei Codex gab es etwa den Fall, dass die KI ganze Code-Paragrafen eines alten Videospiels des Star-Entwicklers John Carmack exakt replizierte.

Der Entwickler und Anwalt Matthew Butterick untersucht derzeit mit einem Team, ob und in welchem Ausmaß Copilot gegen Lizenzbedingungen verstößt und strebt einen Rechtsstreit an. Er sieht in Copilot nur einen bequemeren Zugang zu Open-Source-Code, der jedoch gängige Open-Source-Lizenzbedingungen ignoriert und somit der Szene schadet.

BigCode will beim Thema Copyright von Anfang an für Klarheit sorgen: Alle für das KI-Training verwendeten Beispiele müssen unter der Apache 2.0-Lizenz stehen. Der generierte Code steht ebenfalls unter der Apache 2.0-Lizenz. In Einzelfällen soll es möglich sein, Code unter alternativen Lizenzen zur Verfügung zu stellen.

Empfehlung

Der aktuelle Trainingsdatensatz "The Stack" enthält laut des Projekts mehr als drei Terabytes an lizenzierten Quellcode-Dateien für 30 Programmiersprachen, die von GitHub gecrawlt wurden. Entwickelnde, die ihren Code unerlaubt oder unerwünscht im Stack-Datensatz entdecken, können eine Anfrage auf Entfernung stellen.

Github CEO Thomas Dohmke geht davon aus, dass in den nächsten fünf Jahren bis zu 80 Prozent des Codes von KI-Systemen geschrieben werden. Entwickler:innen mit Copilot sollen Aufgaben circa 55 Prozent schneller erledigen können.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • BigCode ist ein Open-Source-Projekt für die Entwicklung einer Code-KI. Das Modell soll mehr Parameter haben als OpenAIs Codex.
  • Grundlage für das KI-Training ist der Code-Datensatz "The Stack" mit mehr als drei Terabytes Code-Beispielen von Github.
  • BigCode legt besonderen Wert darauf, dass The Stack keine Urheberrechte verletzt, wie es bei Codex und Deepminds AlphaCode diskutiert wird.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!