Im Rahmen seiner Europareise gab OpenAI-Chef Sam Altman in London einen Einblick in den Projektplan für GPT-4 und Co.
Laut Altman werden die kurzfristigen Pläne von OpenAI durch den Mangel an Rechenleistung gebremst, die beispielsweise zu Kundenbeschwerden über die Zuverlässigkeit der OpenAI-API führe.
Auch die API zur Feinabstimmung der Modelle sei durch den GPU-Mangel eingeschränkt. Effiziente Verfeinerungsmethoden wie die Low-Rank-Adaption (LoRA), von denen insbesondere Open-Source-Modelle profitieren, werden von OpenAI noch nicht genutzt.
Die GPT-4-Version mit einem 32k-Kontextfenster kann aufgrund fehlender Rechenkapazität ebenfalls noch nicht ausgerollt werden, ebenso ist der Zugang zu privaten Modellen ab einem Budget von 100.000 US-Dollar eingeschränkt. Dennoch hält Altman ein Kontextfenster von bis zu einer Million Token noch in diesem Jahr für realistisch.
Für alles darüber hinaus müsse das "O(n^2)"-Skalierungsproblem für die Aufmerksamkeit von Transformer-Modellen gelöst werden: Mit zunehmender Größe des Kontextfensters steigt der erforderliche Rechenaufwand proportional zum Quadrat der Anzahl der Token. Eine Verdoppelung des Kontextfensters vervierfacht den Rechenaufwand, eine Verdreifachung verneunfacht ihn und so weiter. Um dieses Problem zu lösen, bedarf es laut Altman eines wissenschaftlichen Durchbruchs.
GPT-4 soll günstiger werden
Oberste Priorität hat für OpenAI die Kostenreduktion bei GPT-4. Bereits von GPT-3 auf GPT-3.5 konnte OpenAI die Rechenkosten massiv senken, was über deutlich geringere API-Kosten an die Kunden weitergegeben wurde.
Noch in diesem Jahr sollen die neuesten Modelle über die Finetuning-API verfügbar sein und eine API, die sich an frühere Konversationen erinnern kann, sodass diese nicht bei jedem neuen API-Aufruf erneut übertragen werden müssen - das spart Kosten.
ChatGPT-Plugins hingegen werden es laut Altman wahrscheinlich nicht in die API schaffen. Altman geht davon aus, dass ChatGPT in Anwendungen interessanter ist als Anwendungen in ChatGPT. Laut Altman fehlt den Plugins, abseits des Browsing, noch die Markttauglichkeit.
In diesem Zusammenhang versichert Altman, dass OpenAI keine weiteren Produkte neben ChatGPT plane, da man nicht mit der eigenen Entwicklergemeinde konkurrieren wolle. Die Vision für ChatGPT sei, einerseits die eigenen APIs zu optimieren und andererseits einen intelligenten Assistenten anzubieten. Es gebe viele andere Anwendungen für Sprachmodelle, die OpenAI nicht anfassen würde.
Multimodalität erst ab 2024 ein Thema
Für das kommende Jahr hat sich OpenAI die Multimodalität auf die Agenda gesetzt. Multimodal bedeutet, dass ein KI-Modell neben Text auch Bilder, perspektivisch vielleicht auch Audio und Video oder 3D-Modelle verarbeiten kann.
OpenAI hat bereits bei der Vorstellung von GPT-4 gezeigt, dass das Modell prinzipiell auch Bilder verarbeiten kann, also etwa Text oder Code zu Bildern oder auf Basis von Bildern generieren kann. Aufgrund der eingangs erwähnten GPU-Limitierung kann diese Funktion derzeit jedoch nicht ausgerollt werden.
Ob OpenAI darüber hinaus multimodale Modelle in Arbeit hat, ist nicht bekannt. GPT-5 dürfte die Multimodalität erweitern, aber wird laut Altman nicht innerhalb der nächsten sechs Monate ins Training gehen. Google Deepmind könnte daher mit seinem eigenen multimodalen Modell Gemini bezüglich Multimodalität die Nase vorn haben.
Altman kommentiert auch seine jüngste Aussage zum "Ende einer Ära riesiger KI-Modelle": OpenAI werde weiterhin versuchen, größere Modelle zu trainieren, und das Skalierungsgesetz gelte nach wie vor, d.h. größere Modelle versprechen auch mehr Leistung. Allerdings würden sich die Modelle nicht mehr wie in den vergangenen Jahren jährlich verdoppeln oder verdreifachen, da dies nicht nachhaltig sei.