OpenAI hat ein Update für sein GPT-4o-Modell veröffentlicht, das Fehlerbehebungen und Leistungsverbesserungen enthält. Die Release Notes zeigen, wie schwierig es ist, KI-Modell-Updates genau zu beschreiben und zu quantifizieren.
OpenAI hat ein Update für sein GPT-4o-Modell veröffentlicht und damit Gerüchte über einen möglichen Test eines neuen KI-Modells ausgeräumt. Laut den Release Notes enthält das Update "Fehlerbehebungen und Leistungsverbesserungen".
Das Unternehmen betont, dass es sich nicht um ein gänzlich neues Modell handelt, sondern um eine Iteration, die auf Experimenten und qualitativem Feedback von ChatGPT-Nutzern basiert. Diese würden das neue Modell tendenziell bevorzugen.
Kurios: OpenAI würde gerne genauer erklären, wie sich die Modellantworten unterscheiden, kann es aber laut eigenen Angaben nicht, da die Erforschung von Möglichkeiten zur granularen Bewertung und Kommunikation von Verbesserungen im Modellverhalten nicht weit genug fortgeschritten sei.
Mitunter sei es möglich, auf neue Fähigkeiten und spezifische Verbesserungen hinzuweisen und OpenAI werde dies weiterhin tun, wann immer es möglich sei. Bis dahin arbeite das Team kontinuierlich an der Verbesserung des Modells, indem es gute Daten hinzufügt, schlechte Daten entfernt und neue Forschungsmethoden erprobt, die auf Nutzerfeedback und Offline-Evaluationen basieren. Das sei auch bei diesem Modell-Update der Fall.
LLMs bewerten - es ist kompliziert
Das zeigt, wie schwierig es für OpenAI und andere KI-Unternehmen ist, Verbesserungen an ihren Modellen genau zu quantifizieren und zu kommunizieren. Oft handelt es sich um subtile Änderungen, die auf einer Vielzahl von Daten und Experimenten beruhen.
Gleichzeitig wecken selbst kleine Updates hohe Erwartungen und Spekulationen in der KI-Community, da alle auf einen Beweis warten, dass das aktuelle, seit etwa eineinhalb Jahren gültige GPT-4-Niveau deutlich übertroffen werden kann.
OpenAI versucht dem entgegenzuwirken, indem es betont, dass es sich bei GPT-4o nicht um ein gänzlich neues Modell handelt, sondern um eine Weiterentwicklung. Dennoch gibt es seit einigen Tagen Gerüchte, dass ein neues, wesentlich leistungsfähigeres Modell basierend auf "Projekt Strawberry" in Kürze erscheinen könnte.
Zumindest in der Chatbot-Arena, in der Menschen die Ausgaben von KI-Chatbots bewerten, liegt GPT-4o wieder auf Platz 1 knapp vor Google Gemini 1.5. Allerdings ist die Aussagekraft solcher Tests begrenzt und kann je nach Aufgabe stark schwanken. Hier hilft nur selbst testen.
Für API-Nutzer: Der neueste Modell-Snapshot über die API "gpt-4o-2024-08-06" unterstützt strukturierte Ausgaben und hat ein erweitertes Kontextfenster von 128.000 Token und eine maximale Ausgabe von 16.384 Token. Das dynamische Modell "chatgpt-4o-latest" bezieht sich immer auf die aktuelle Version von GPT-4o in ChatGPT, also auf das eingangs erwähnte aktuellste Modell. Alle Modelle wurden mit Daten bis Oktober 2023 trainiert.