TikToks Muttergesellschaft ByteDance wurde von OpenAI von ChatGPT ausgeschlossen, nachdem bekannt wurde, dass das Unternehmen heimlich OpenAI-Technologie verwendet hatte, um ein konkurrierendes KI-Modell namens Project Seed zu entwickeln.
Laut internen Dokumenten von ByteDance, die dem The Verge-Redakteur Alex Heath zugespielt wurden, nutzte ByteDance die API von OpenAI in fast jeder Phase der Entwicklung von Project Seed, einschließlich des Trainings und der Evaluierung des Modells.
Die Mitarbeiter waren sich der Auswirkungen bewusst und diskutierten auf Lark, der internen Kommunikationsplattform von ByteDance, wie sie die Beweise durch "Daten-Desensibilisierung" verwischen könnten.
Die Verwendung von Trainingsdaten, um konkurrierende KI-Modelle mit der KI-Technologie von OpenAI zu trainieren, stellt einen direkten Verstoß gegen die Nutzungsbedingungen von OpenAI dar. Bytedance hatte Zugang zu GPT-4 über Microsofts Azure-Dienst, für den die gleichen Regeln gelten.
Einerseits könnte diese Art der Datenbeschaffung Konkurrenten helfen, wesentlich schneller an qualitativ hochwertige Daten und damit bessere KI-Modelle zu gelangen.
Andererseits besteht die Gefahr, dass beispielsweise Fehler und Verzerrungen des generierenden Modells auf andere KI-Modelle übertragen werden und damit die Qualität der Generierung und der Daten insgesamt beeinträchtigt wird.
OpenAI untersucht möglichen Verstoß von Bytedance
OpenAI-Sprecher Niko Felix bestätigt gegenüber Heath, dass der Account von Bytedance gesperrt wurde und die Vorwürfe untersucht werden. Bytedance habe die API bisher nur minimal genutzt. Sollte sich herausstellen, dass die Nutzung der API regelwidrig war, müsse Bytedance Änderungen vornehmen oder der Account werde gelöscht.
ByteDance-Sprecherin Jodi Seth erklärt gegenüber Heath, dass GPT-generierte Daten zu Beginn der Entwicklung von Project Seed zur Annotation des Modells verwendet und dass diese Daten Mitte des Jahres aus den Trainingsdaten von ByteDance entfernt wurden. Bytedance sei ein lizenzierter Microsoft-Partner und verwende GPT-Modelle für Produkte außerhalb Chinas.
ByteDance entwickelt in Project Seed Sprachmodelle für den Doubao Chatbot und einen Business-Chatbot, der als Cloud-Produkt vermarktet werden soll.
Das Hauptziel von Project Seed soll es sein, so schnell wie möglich Chinas ChatGPT zu werden. Das Team hat als Vorgabe bekommen, bis Ende dieses Jahres die Leistung von GPT-3.5 und bis Mitte 2024 die Leistung von GPT-4 zu erreichen.
Das aktuelle Seed-Modell soll 200 Milliarden Parameter haben. GPT-3 hatte 175 Milliarden Parameter, das vernetzte GPT-4-Modell soll insgesamt etwa 1,8 Billionen Parameter haben. Allerdings hat die Parameterzahl als alleiniger Indikator für die Leistungsfähigkeit eines Modells seit der Veröffentlichung von GPT-3 an Bedeutung verloren.