Leaks zeigen GPT-4-Architektur, Datensätze, Kosten und mehr

Update

Neue Informationen aus dem SemiAnalysis-Leaks hinzugefügt

Update vom 11. Juli 2023:

Ein neuer Bericht von SemiAnalysis enthüllt weitere Details über OpenAIs GPT-4 und kommt zu dem Schluss, dass "OpenAI die Architektur von GPT-4 nicht deshalb geheim hält, weil es eine existenzielle Bedrohung für die Menschheit darstellt, sondern weil das, was sie gebaut haben, replizierbar ist". Details des Berichts wurden auf Twitter und Pastebin veröffentlicht und bestätigten die meisten der bereits bekannten Informationen, die von Personen wie George Hotz geteilt wurden.

Die wichtigsten Punkte:

GPT-4s Größe: GPT-4 hat ~1,8 Billionen Parameter in 120 Schichten und ist damit mehr als zehnmal so groß wie GPT-3.
Mixture Of Experts (MoE): OpenAI verwendet 16 Experten für GPT-4, jeder mit ~111 Milliarden Parametern. Zwei dieser Experten werden pro Vorwärtsdurchlauf genutzt, was dazu beiträgt, die Kosten überschaubar zu halten.
Datensatz: GPT-4 wurde mit ~13 Billionen Token trainiert, die sowohl textbasierte als auch codebasierte Daten enthalten, mit einigen Feinabstimmungsdaten von ScaleAI und intern.
Datensatz Zusammensetzung: Die Trainingsdaten umfassten CommonCrawl und RefinedWeb mit insgesamt 13 Billionen Token. Spekulationen zufolge gibt es weitere Quellen wie Twitter, Reddit, YouTube und eine große Sammlung von Lehrbüchern.
Trainingskosten: Die Trainingskosten für das GPT-4 beliefen sich auf etwa 63 Millionen Dollar, wenn man die erforderliche Rechenleistung und die Trainingszeit berücksichtigt.
Inferenzkosten: GPT-4 kostet dreimal mehr als der 175B-Parameter Davinci, was auf die größeren erforderlichen Cluster und die geringere Auslastung zurückzuführen ist.
Inferenz-Architektur: Die Inferenz läuft auf einem Cluster von 128 GPUs unter Verwendung von 8-facher Tensorparallelität und 16-facher Pipelineparallelität.
Vision Multi-Modal: GPT-4 enthält einen Bildverarbeitungs-Encoder für autonome Agenten, die Webseiten lesen und Bilder und Videos transkribieren können. Die Architektur ist ähnlich wie bei Flamingo. Dies fügt weitere Parameter hinzu und wird mit weiteren ~2 Billionen Token fein abgestimmt.

Originalartikel vom 28. Juni 2023:

OpenAI GPT-4 soll auf der "Mixture of Experts"-Architektur basieren und 1,76 Billionen Parameter umfassen.

Laut Gerüchten basiert GPT-4 auf acht Modellen mit jeweils 220 Milliarden Parametern, die in der "Mixture of Experts"-Architektur (MoE) verknüpft sind. Die Idee ist fast 30 Jahre alt und wurde bereits für große Sprachmodelle verwendet, beispielsweise von Google für den Switch Transformer. Das Unternehmen entwickelte seitdem weitere Verbesserungen für die MoE-Architektur.

Das MoE-Modell ist eine Art von Ensemble-Learning-Verfahren, bei dem verschiedene Modelle, sogenannte "Experten", kombiniert werden, um eine Entscheidung zu treffen. In einem MoE-Modell bestimmt ein Gating-Netzwerk die Gewichtung der Ausgabe jedes Experten auf der Grundlage der Eingabe. Auf diese Weise können sich verschiedene Experten auf unterschiedliche Teile des Eingaberaums spezialisieren. Diese Architektur ist besonders bei großen und komplexen Datensätzen nützlich, da sie den Problemraum effektiv in einfachere Teilräume unterteilen kann.

Kein Statement von OpenAI, aber die Gerüchte sind glaubwürdig

Die Informationen zu GPT-4 stammen von George Hotz, Gründer von Comma.ai, einem Start-up-Unternehmen für autonomes Fahren. Hotz ist KI-Experte und auch für seine Hacker-Vergangenheit bekannt: Er knackte als Erster das iPhone und Sonys Playstation 3.

Auf Twitter haben sich auch andere KI-Expert:innen zu Hotz geäußert und halten seine Informationen für sehr wahrscheinlich.

Empfehlung

KI-Forschung

Brauchen KI-Modelle wirklich riesige Kontextfenster?

i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7

— Soumith Chintala (@soumithchintala) June 20, 2023

Was kann Open-Source von GPT-4 lernen?

Die Architektur könnte das Training von GPT-4 vereinfacht haben, da verschiedene Teams an verschiedenen Teilen des Netzwerks arbeiten können. Dies würde auch erklären, warum OpenAI die multimodalen Fähigkeiten von GPT-4 so unabhängig von dem derzeit verfügbaren Produkt entwickeln und separat veröffentlichen kann. Mittlerweile könnte GPT-4 jedoch in einem kleineren Modell zusammengeführt worden sein, um effizienter zu sein, spekuliert Soumith Chintala, einer der Gründer von PyTorch.

Hotz spekulierte auch, dass GPT-4 nicht nur eine Ausgabe erzeugt, sondern iterativ 16 Ausgaben, die mit jeder Iteration verbessert werden.

Die Open-Source-Gemeinschaft könnte nun versuchen, diese Architektur nachzubauen, die Ideen und die Technologie dafür sind seit einiger Zeit verfügbar. GPT-4 könnte jedoch gezeigt haben, wie weit sich die MoE-Architektur mit den richtigen Trainingsdaten und Rechenressourcen bringen lässt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Leaks zeigen GPT-4-Architektur, Datensätze, Kosten und mehr

Kein Statement von OpenAI, aber die Gerüchte sind glaubwürdig

Brauchen KI-Modelle wirklich riesige Kontextfenster?

Was kann Open-Source von GPT-4 lernen?

Coconut: Meta-Forscher entwickeln ein Sprachmodell, das ohne Sprache denkt

AGI-Benchmark ARC bleibt trotz deutlicher Fortschritte auch 2024 ungelöst

DeepThought-8B: Ruliad veröffentlicht offenes "Reasoning"-Modell

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Leaks zeigen GPT-4-Architektur, Datensätze, Kosten und mehr

Kein Statement von OpenAI, aber die Gerüchte sind glaubwürdig

Was kann Open-Source von GPT-4 lernen?

Artikel teilen

Bankverbindung