KI-Forschung

Leaks zeigen GPT-4-Architektur, Datensätze, Kosten und mehr

Maximilian Schreiner

Midjourney prompted by THE DECODER

Update
  • Neue Informationen aus dem SemiAnalysis-Leaks hinzugefügt

Update vom 11. Juli 2023:

Ein neuer Bericht von SemiAnalysis enthüllt weitere Details über OpenAIs GPT-4 und kommt zu dem Schluss, dass "OpenAI die Architektur von GPT-4 nicht deshalb geheim hält, weil es eine existenzielle Bedrohung für die Menschheit darstellt, sondern weil das, was sie gebaut haben, replizierbar ist". Details des Berichts wurden auf Twitter und Pastebin veröffentlicht und bestätigten die meisten der bereits bekannten Informationen, die von Personen wie George Hotz geteilt wurden.

Die wichtigsten Punkte:

Originalartikel vom 28. Juni 2023:

OpenAI GPT-4 soll auf der "Mixture of Experts"-Architektur basieren und 1,76 Billionen Parameter umfassen.

Laut Gerüchten basiert GPT-4 auf acht Modellen mit jeweils 220 Milliarden Parametern, die in der "Mixture of Experts"-Architektur (MoE) verknüpft sind. Die Idee ist fast 30 Jahre alt und wurde bereits für große Sprachmodelle verwendet, beispielsweise von Google für den Switch Transformer. Das Unternehmen entwickelte seitdem weitere Verbesserungen für die MoE-Architektur.

Das MoE-Modell ist eine Art von Ensemble-Learning-Verfahren, bei dem verschiedene Modelle, sogenannte "Experten", kombiniert werden, um eine Entscheidung zu treffen. In einem MoE-Modell bestimmt ein Gating-Netzwerk die Gewichtung der Ausgabe jedes Experten auf der Grundlage der Eingabe. Auf diese Weise können sich verschiedene Experten auf unterschiedliche Teile des Eingaberaums spezialisieren. Diese Architektur ist besonders bei großen und komplexen Datensätzen nützlich, da sie den Problemraum effektiv in einfachere Teilräume unterteilen kann.

Kein Statement von OpenAI, aber die Gerüchte sind glaubwürdig

Die Informationen zu GPT-4 stammen von George Hotz, Gründer von Comma.ai, einem Start-up-Unternehmen für autonomes Fahren. Hotz ist KI-Experte und auch für seine Hacker-Vergangenheit bekannt: Er knackte als Erster das iPhone und Sonys Playstation 3.

Auf Twitter haben sich auch andere KI-Expert:innen zu Hotz geäußert und halten seine Informationen für sehr wahrscheinlich.

 

Was kann Open-Source von GPT-4 lernen?

Die Architektur könnte das Training von GPT-4 vereinfacht haben, da verschiedene Teams an verschiedenen Teilen des Netzwerks arbeiten können. Dies würde auch erklären, warum OpenAI die multimodalen Fähigkeiten von GPT-4 so unabhängig von dem derzeit verfügbaren Produkt entwickeln und separat veröffentlichen kann. Mittlerweile könnte GPT-4 jedoch in einem kleineren Modell zusammengeführt worden sein, um effizienter zu sein, spekuliert Soumith Chintala, einer der Gründer von PyTorch.

Hotz spekulierte auch, dass GPT-4 nicht nur eine Ausgabe erzeugt, sondern iterativ 16 Ausgaben, die mit jeder Iteration verbessert werden.

Die Open-Source-Gemeinschaft könnte nun versuchen, diese Architektur nachzubauen, die Ideen und die Technologie dafür sind seit einiger Zeit verfügbar. GPT-4 könnte jedoch gezeigt haben, wie weit sich die MoE-Architektur mit den richtigen Trainingsdaten und Rechenressourcen bringen lässt.

Quellen: