Inhalt
summary Zusammenfassung

Nach Ansicht von OpenAI verstoßen die Prompts der New York Times, die exakte Kopien der Inhalte der New York Times erzeugen, gegen die Nutzungsbedingungen der eigenen Sprachmodelle.

Aus der Beschwerde der New York Times geht hervor, dass der Verlag GPT-Modelle mit Anfängen eigener Originalartikel gepromptet hat, damit das Modell den Text dann möglichst originalgetreu zu Ende schreibt.

Die NYT hat ein GPT-Sprachmodell mit eigenen Artikelanfängen provoziert, um eine Vervollständigung zu provozieren. Laut OpenAI verstößt dies gegen die eigenen Nutzungsbedingungen. | Bild: Screenshot der Anklageschrift

Diese Prompt-Strategie erhöht die Wahrscheinlichkeit, dass das Modell originale Trainingsdaten ausspuckt. Es wird sozusagen zur Urheberrechtsverletzung animiert. Im Chat, wie man ihn von ChatGPT kennt, mit gewöhnlichen Prompts, wären solche Ausgaben deutlich unwahrscheinlicher bis unmöglich.

Laut OpenAI verstoßen Prompts der New York Times gegen die eigenen Nutzungsbedingungen

Laut Tom Rubin, Leiter für geistiges Eigentum und Inhalte bei OpenAI, hat die New York Times diese manipulativen Prompts bewusst eingesetzt, um gezielt Trainingsdaten zu reproduzieren.

Anzeige
Anzeige

Die in der Anklage verwendeten Prompts seien nicht exemplarisch für die beabsichtigte Nutzung oder normales Nutzerverhalten, so Rubin in einer E-Mail an die Washington Post. Die Prompts würden gegen die Nutzungsbedingungen von OpenAI verstoßen.

Außerdem seien viele der Beispiele bereits nicht mehr reproduzierbar. OpenAI arbeitet kontinuierlich daran, die eigenen Produkte resistenter gegen solche "Missbrauchsversuche" zu machen.

Zählt der Prompt oder das Ergebnis?

Der Streit zwischen OpenAI und der New York Times könnte sich an der Frage zuspitzen, ob das Auswendiglernen einzelner Trainingsdaten großer Sprachmodelle ein Fehler oder ein Merkmal ist.

Spielt der Prompt, der zu einer Ausgabe führt, eine Rolle - oder ist nur die Ausgabe relevant und diese eine Urheberrechtsverletzung, sobald sie weitgehend mit einem bestehenden Werk übereinstimmt?

Wenn bereits eine Ausgabe, die weitgehend mit dem Original übereinstimmt, vor Gericht als Rechtsverletzung gewertet wird, erübrigt sich im Grunde die Frage nach möglichen Urheberrechtsverletzungen durch Trainingsdaten oder falsche Zitate und Reproduktionen.

Empfehlung

Denn um eine Urheberrechtsverletzung auszuschließen, dürfte ohnehin nur lizenzfreies oder lizenziertes Material für das Training verwendet werden. Ähnliches gilt für Bildmodelle wie Midjourney.

Dass Big AI derzeit versucht, außergerichtlich millionenschwere Vergleiche mit Verlagen zu schließen, zeugt zumindest von einer gewissen Unsicherheit, ob die Gerichte im Sinne der KI-Unternehmen entscheiden werden.

Denn das Letzte, was die Modellentwickler derzeit gebrauchen können, sind noch höhere Kosten für die Ausbildung und Bereitstellung generativer KI-Dienste. Lizenzkosten für Trainingsmaterialien könnten sich als enorme Kostentreiber erweisen. Dazu passt, dass OpenAI, trotz Microsoft im Rücken, Publishern derzeit nur geringe Beträge anbietet. Apple soll spendabler sein.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI behauptet, dass die New York Times gegen die Nutzungsbedingungen ihrer Sprachmodelle verstößt, indem sie manipulative Prompts verwendet, die exakte Kopien von NYT-Inhalten erzeugen.
  • Die Zeitung habe GPT-Modelle mit den Anfängen ihrer eigenen Artikel gepromptet, um das Modell dazu zu bringen, den Text so originalgetreu wie möglich zu beenden, was die Wahrscheinlichkeit von Urheberrechtsverletzungen erhöhe. OpenAI arbeitete daran, seine Produkte resistenter gegen solche "Missbrauchsversuche" zu machen.
  • Der Streit zwischen den beiden Parteien wirft die Diskussion auf, ob das Auswendiglernen von Trainingsdaten in großen Sprachmodellen ein Fehler oder eine Eigenschaft ist. Diese Frage könnte den Ausgang des Rechtsstreits bestimmen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!