Inhalt
summary Zusammenfassung

OpenAI hat dem Modell bei o1 von Grund auf die beliebte "Schritt-für-Schritt"-Prompting-Methode beigebracht. Hinter der logischen Leistungsfähigkeit des Modells steckt jedoch noch mehr.

Anzeige

OpenAI hat laut eigenen Angaben mit dem o1-Modell einen Weg gefunden, die Rechenleistung bei der Inferenz zu skalieren. Mit mehr Rechenleistung und längerer Antwortzeit soll das Modell bessere Ergebnisse liefern, was einen neuen Skalierungshorizont eröffnet. Dem Modell wurde dafür die beliebte "Schritt für Schritt"-Prompting-Methode von Grund auf beigebracht.

Forscher von Epoch AI haben nun versucht, die Leistung von o1-preview in einem anspruchsvollen Multiple-Choice-Benchmark mit naturwissenschaftlichen Fragen (GPQA) zu erreichen, indem sie eine große Anzahl von Token mit GPT-4o unter Verwendung von zwei Prompting-Methoden (Revisions und Majority Voting) generierten, ähnlich wie es o1 in seinem "Denkprozess" tut.

Sie stellten fest, dass zwar eine leichte Verbesserung durch die Generierung einer großen Anzahl von Token erreicht werden kann, aber keine Anzahl von Token ausreicht, um auch nur annähernd die Leistung von o1-preview zu erreichen. Selbst bei einer hohen Anzahl generierter Token liegt die Genauigkeit der GPT-4o-Varianten deutlich unter der von o1-preview.

Anzeige
Anzeige
Liniendiagramm, das die Genauigkeit von GPT-4o im GPQA-Benchmark in Abhängigkeit von der Anzahl der generierten Ausgabe-Token für die Prompting-Methoden Revisions und Majority Voting zeigt. Zum Vergleich ist die Genauigkeit von o1-preview als roter Punkt eingezeichnet. Auch bei 1 Million Token erreicht GPT-4o nicht annähernd die Genauigkeit von o1-preview.
Auswirkung der Anzahl der Ausgabe-Token auf die Genauigkeit von GPT-4o im GPQA-Benchmark im Vergleich zu o1-preview | Bild: Epoch AI

Das gilt auch, wenn man den höheren Preis pro Token von o1-preview berücksichtigt. Selbst wenn man 1000 USD für Ausgabe-Token ausgeben würde, wäre die Genauigkeit von GPT-4o immer noch mehr als 10 Prozentpunkte geringer als die von o1-preview, so die Extrapolation der Forscher.

Was macht o1 besser?

Die zentrale Schlussfolgerung ist, dass die naive Skalierung der Inferenzrechenleistung nicht ausreicht. Die überlegene Leistung von o1-preview ist wahrscheinlich auf fortgeschrittene RL-Techniken und bessere Suchmethoden zurückzuführen, was die entscheidende Rolle von algorithmischen Innovationen für den Fortschritt der KI unterstreicht.

Die Forscher weisen jedoch darauf hin, dass ihre Ergebnisse nicht unbedingt zeigen, dass algorithmische Verbesserungen den Unterschied zwischen o1-preview und GPT-4o erklären. Eine bessere Qualität der Trainingsdaten könnte ebenfalls eine Rolle spielen.

Da o1 direkt mit korrekten Denkpfaden trainiert wurde, könnte es auch sein, dass es schlicht viel effizienter ist, den gelernten logischen Schritten zu folgen, die schneller zum richtigen Ergebnis führen. Damit würde die zur Verfügung gestellte Rechenleistung besser genutzt.

Forscher der Arizona State University zeigten kürzlich, dass das neue KI-Modell von OpenAI deutliche Fortschritte bei Planungsaufgaben macht, aber weiterhin fehleranfällig ist. Laut den Forschern zeigt o1 zwar eine deutliche Verbesserung in den getesteten Logik-Benchmarks, bietet aber keine Garantie für die Richtigkeit der Lösungen. Klassische Planungsalgorithmen erreichen perfekte Genauigkeit bei kürzeren Rechenzeiten und geringeren Kosten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit dem o1-Modell hat OpenAI einen Weg gefunden, die Rechenleistung bei der Inferenz zu skalieren. Mehr Rechenleistung und längere Antwortzeiten sollen zu besseren Ergebnissen führen und einen neuen Skalierungshorizont eröffnen.
  • Die Forscher von Epoch AI stellten fest, dass o1-preview die Genauigkeit von GPT-4o deutlich übertrifft, selbst wenn spezielle Propmting-Methoden verwendet werden, die eine hohe Anzahl an generierten "Denk"-Token erzeugen.
  • Die überlegene Leistung von o1-preview ist daher wahrscheinlich auf fortgeschrittene RL-Techniken, bessere Suchmethoden und möglicherweise eine bessere Qualität der Trainingsdaten zurückzuführen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!