OpenAI arbeitet an Copyright-Lösung für große KI-Modelle

10. Mai 2023 Matthias Bastian

Ein Porträtbild von Sam Altman, ein junger Mann mit braunen wuscheligen Haaren und schlanker Figur.

Wer zu den Fähigkeiten eines KI-Modells beiträgt, soll laut Sam Altman in Zukunft auch davon profitieren. Wie genau, ist noch unklar.

Bei einem AI Summit im Weißen Haus sagte OpenAI-CEO Sam Altman, sein Unternehmen arbeite an KI-Modellen, die das Urheberrecht respektieren. Ziel sei es, dass die Urheberinnen und Urheber von Inhalten dafür bezahlt werden, wenn ihre Inhalte oder, etwa bei Bildern ihr Stil, verwendet werden. Zur technischen Umsetzung äußert sich Altman nicht.

Bereits bei der Vorstellung der ChatGPT-Plugins zeigte OpenAI Verständnis für die möglichen Auswirkungen eines großen Sprachmodells mit Werkzeugen auf das Content-Ökosystem. Je mehr Interaktion im Chatbot-Ökosystem stattfindet, desto weniger Aufmerksamkeit - und damit auch weniger Geld - erhalten die Content-Ersteller außerhalb des Chatbots für ihre Produkte.

„Wir sind uns bewusst, dass dies eine neue Art ist, mit dem Internet zu interagieren, und freuen uns über Feedback zu weiteren Möglichkeiten, den Traffic zu den Quellen zurückzuführen und zur allgemeinen Gesundheit des Ökosystems beizutragen“, schreibt OpenAI.

Denkbar wäre für Text eine Spotify-ähnliche Streaming-Lösung auf Basis der verwendeten Token, deren Generierung eindeutig den Quellen zugeordnet werden kann, oder eine Flatrate, abhängig von der Datenmenge, die man OpenAI zur Verfügung stellt. Derzeit können Webseiten ähnlich wie beim Google-Index technisch hinterlegen, ob sie von ChatGPT gecrawlt werden wollen oder nicht.

KI-Modelle und das große Copyright-Beben

Bereits die Verwendung von Bildern und Texten für das Training großer KI-Modelle wird aus urheberrechtlicher Sicht kritisch diskutiert. Hinzu kommt, dass generative KI-Modelle Texte oder Bilder erzeugen können, die dem Original sehr ähnlich sind. Derzeit sind international Gerichtsverfahren anhängig, unter anderem von Getty Images gegen Stability AI (Stable Diffusion).

OpenAI und andere KI-Unternehmen könnten diesem Problem relativ einfach begegnen, indem sie in Zukunft nur solche Daten für das KI-Training verwenden, bei denen klar ist, dass sie für diesen Zweck verwendet werden dürfen. Die Frage ist, ob auf diese Weise die notwendigen Datenmengen wirtschaftlich sinnvoll erhoben werden können.

Die Echtzeitfähigkeit großer Sprachmodelle mit Tools (Plugins) bringt die Urheberrechtsdebatte noch einmal auf eine neue Ebene: Während die trainierten Sprachmodelle relativ statisch sind und derzeit nur alle paar Monate oder gar Jahre aktualisiert werden, kann beispielsweise ChatGPT mit einem Browsing-Plugin in Echtzeit Informationen aus dem Internet aufnehmen und mit dem Wissen aus den Trainingsdaten kombinieren.

Ähnlich funktioniert auch der Bing Chatbot von Microsoft. Microsoft-CEO Satya Nadella hat Verlagen versprochen, den ausgehenden Traffic des Chatbots als Erfolgsfaktor für das Produkt zu definieren und Publisher am Erfolg zu beteiligen.

Wie und ob das gelingen kann, ist unklar. Denn auch wenn Chatbots Quellen nennen können, dürften die Zugriffszahlen auf Webseiten im Chatbot-Zeitalter drastisch zurückgehen, wenn immer mehr Web-Aufgaben per Sprache über die Chatbot-Oberfläche erledigt werden.

Quellen:

Axios