OpenAI hat eine neue Initiative namens OpenAI Data Partnerships ins Leben gerufen. Ziel ist es, KI-Modelle zu entwickeln, die alle Themen, Branchen, Kulturen und Sprachen gründlich verstehen.
Große KI-Modelle lernen Fähigkeiten und Aspekte der Welt, indem sie die Daten interpretieren, auf denen sie trainiert werden. Um eine AGI zu schaffen, die für die gesamte Menschheit sicher und nützlich ist, benötigen KI-Modelle einen umfangreichen Trainingsdatensatz, schreibt OpenAI.
Durch die Einbeziehung vielfältiger Inhalte könnten KI-Modelle besser in der Lage sein, spezifische Bereiche zu verstehen, was für ihre praktischen Anwendungen entscheidend ist.
Datenvielfalt ist entscheidend
OpenAI arbeitet bereits mit mehreren Partnern zusammen, darunter die isländische Regierung und die gemeinnützige Organisation Free Law Project, die daran interessiert sind, Daten aus ihrem Land oder ihrem Sektor zu repräsentieren. Ziel des Free Law Project ist es, den Zugang zu juristischem Wissen zu verbessern.
OpenAI ist besonders an großen Datensätzen interessiert, die die menschliche Gesellschaft widerspiegeln und die nicht bereits leicht öffentlich zugänglich sind. Die Daten können Text, Bild, Audio oder Video sein. Von besonderem Interesse sind Daten, die menschliche Absichten ausdrücken, unabhängig von Sprache, Thema oder Format.
Für die Zusammenarbeit mit OpenAI gibt es derzeit zwei Möglichkeiten:
1. Open-Source-Archiv: Es soll ein Open-Source-Datensatz für das Training von Sprachmodellen erstellt werden, der für jedermann öffentlich zugänglich ist und für das Training von KI-Modellen verwendet werden kann. OpenAI prüft, wie dieser Datensatz genutzt werden kann, um weitere Open-Source-Modelle sicher zu trainieren.
2. Private Datensätze: Für Organisationen, die ihre Daten privat halten möchten, aber dennoch KI-Modelle ihr Fachgebiet besser verstehen lassen wollen, bereitet OpenAI private Datensätze für das Training von proprietären KI-Modellen auf, einschließlich Basismodellen und fein abgestimmten kundenspezifischen Modellen. Die Organisation behandelt die Daten mit dem vom Partner gewünschten Grad an Sensibilität und Zugangskontrollen.