Inhalt
summary Zusammenfassung
Update
  • Neue Informationen aus dem SemiAnalysis-Leaks hinzugefügt

Update vom 11. Juli 2023:

Ein neuer Bericht von SemiAnalysis enthüllt weitere Details über OpenAIs GPT-4 und kommt zu dem Schluss, dass "OpenAI die Architektur von GPT-4 nicht deshalb geheim hält, weil es eine existenzielle Bedrohung für die Menschheit darstellt, sondern weil das, was sie gebaut haben, replizierbar ist". Details des Berichts wurden auf Twitter und Pastebin veröffentlicht und bestätigten die meisten der bereits bekannten Informationen, die von Personen wie George Hotz geteilt wurden.

Die wichtigsten Punkte:

  • GPT-4s Größe: GPT-4 hat ~1,8 Billionen Parameter in 120 Schichten und ist damit mehr als zehnmal so groß wie GPT-3.
  • Mixture Of Experts (MoE): OpenAI verwendet 16 Experten für GPT-4, jeder mit ~111 Milliarden Parametern. Zwei dieser Experten werden pro Vorwärtsdurchlauf genutzt, was dazu beiträgt, die Kosten überschaubar zu halten.
  • Datensatz: GPT-4 wurde mit ~13 Billionen Token trainiert, die sowohl textbasierte als auch codebasierte Daten enthalten, mit einigen Feinabstimmungsdaten von ScaleAI und intern.
  • Datensatz Zusammensetzung: Die Trainingsdaten umfassten CommonCrawl und RefinedWeb mit insgesamt 13 Billionen Token. Spekulationen zufolge gibt es weitere Quellen wie Twitter, Reddit, YouTube und eine große Sammlung von Lehrbüchern.
  • Trainingskosten: Die Trainingskosten für das GPT-4 beliefen sich auf etwa 63 Millionen Dollar, wenn man die erforderliche Rechenleistung und die Trainingszeit berücksichtigt.
  • Inferenzkosten: GPT-4 kostet dreimal mehr als der 175B-Parameter Davinci, was auf die größeren erforderlichen Cluster und die geringere Auslastung zurückzuführen ist.
  • Inferenz-Architektur: Die Inferenz läuft auf einem Cluster von 128 GPUs unter Verwendung von 8-facher Tensorparallelität und 16-facher Pipelineparallelität.
  • Vision Multi-Modal: GPT-4 enthält einen Bildverarbeitungs-Encoder für autonome Agenten, die Webseiten lesen und Bilder und Videos transkribieren können. Die Architektur ist ähnlich wie bei Flamingo. Dies fügt weitere Parameter hinzu und wird mit weiteren ~2 Billionen Token fein abgestimmt.

Originalartikel vom 28. Juni 2023:

Anzeige
Anzeige

OpenAI GPT-4 soll auf der "Mixture of Experts"-Architektur basieren und 1,76 Billionen Parameter umfassen.

Laut Gerüchten basiert GPT-4 auf acht Modellen mit jeweils 220 Milliarden Parametern, die in der "Mixture of Experts"-Architektur (MoE) verknüpft sind. Die Idee ist fast 30 Jahre alt und wurde bereits für große Sprachmodelle verwendet, beispielsweise von Google für den Switch Transformer. Das Unternehmen entwickelte seitdem weitere Verbesserungen für die MoE-Architektur.

Das MoE-Modell ist eine Art von Ensemble-Learning-Verfahren, bei dem verschiedene Modelle, sogenannte "Experten", kombiniert werden, um eine Entscheidung zu treffen. In einem MoE-Modell bestimmt ein Gating-Netzwerk die Gewichtung der Ausgabe jedes Experten auf der Grundlage der Eingabe. Auf diese Weise können sich verschiedene Experten auf unterschiedliche Teile des Eingaberaums spezialisieren. Diese Architektur ist besonders bei großen und komplexen Datensätzen nützlich, da sie den Problemraum effektiv in einfachere Teilräume unterteilen kann.

Kein Statement von OpenAI, aber die Gerüchte sind glaubwürdig

Die Informationen zu GPT-4 stammen von George Hotz, Gründer von Comma.ai, einem Start-up-Unternehmen für autonomes Fahren. Hotz ist KI-Experte und auch für seine Hacker-Vergangenheit bekannt: Er knackte als Erster das iPhone und Sonys Playstation 3.

Auf Twitter haben sich auch andere KI-Expert:innen zu Hotz geäußert und halten seine Informationen für sehr wahrscheinlich.

Empfehlung

 

Was kann Open-Source von GPT-4 lernen?

Die Architektur könnte das Training von GPT-4 vereinfacht haben, da verschiedene Teams an verschiedenen Teilen des Netzwerks arbeiten können. Dies würde auch erklären, warum OpenAI die multimodalen Fähigkeiten von GPT-4 so unabhängig von dem derzeit verfügbaren Produkt entwickeln und separat veröffentlichen kann. Mittlerweile könnte GPT-4 jedoch in einem kleineren Modell zusammengeführt worden sein, um effizienter zu sein, spekuliert Soumith Chintala, einer der Gründer von PyTorch.

Hotz spekulierte auch, dass GPT-4 nicht nur eine Ausgabe erzeugt, sondern iterativ 16 Ausgaben, die mit jeder Iteration verbessert werden.

Die Open-Source-Gemeinschaft könnte nun versuchen, diese Architektur nachzubauen, die Ideen und die Technologie dafür sind seit einiger Zeit verfügbar. GPT-4 könnte jedoch gezeigt haben, wie weit sich die MoE-Architektur mit den richtigen Trainingsdaten und Rechenressourcen bringen lässt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI's GPT-4 soll angeblich auf der "Mixture of Experts"-Architektur basieren und 1,76 Billionen Parameter umfassen.
  • Diese Architektur kombiniert mehrere Modelle zur Entscheidungsfindung und kann bei großen Datensätzen besonders nützlich sein.
  • Die Informationen stammen von George Hotz, einem KI-Experten, und haben in der KI-Gemeinschaft Glaubwürdigkeit erlangt.
  • Open-Source-Entwickler könnten versuchen, diese Architektur nachzubauen und von GPT-4's Fortschritten zu lernen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!