Andreas Braun, CTO von Microsoft Deutschland, kündigt für die kommende Woche die Vorstellung von GPT-4 an. Dabei soll es sich um multimodale Modelle handeln.
Auf der Veranstaltung "KI im Fokus - Digital Kickoff" stellte Microsoft Deutschland Anwendungen großer Sprachmodelle für Unternehmen vor und sprach über die Zusammenarbeit mit OpenAI und neue Azure-Angebote.
Wie Silke Hahn für Heise berichtet, kündigte Braun dabei eine Vorstellung von GPT-4 in der kommenden Woche an: "Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten - zum Beispiel Videos", sagte Braun.
Kann GPT-4 Videos generieren?
An dieser Aussage sind zwei Aspekte spannend: Zum einen spricht Braun von GPT-4 im Plural, was bedeuten könnte, dass es aus mehreren miteinander vernetzten Modellen besteht. Schon Anfang 2020 gab es Gerüchte, dass OpenAI ein riesiges multimodales KI-Modell trainiert, die Zusammenführung verschiedener Projekte.
Zum anderen spricht Braun explizit von "Videos". Daraus sollte jedoch nicht vorschnell geschlossen werden, dass GPT-4 ganze Videos generiert. Die entsprechende Technologie existiert zwar in Ansätzen, ist aber noch sehr experimentell und rechenintensiv.
Braun könnte die Video-Multimodalität auch auf den Input beziehen, das heißt, dass GPT-4 Video- oder Bildprompts textuell weiterverarbeiten kann. Es wäre etwa denkbar, dass GPT-4 den Inhalt eines Bildes, Videos oder Audios beschreibt und diese Beschreibung wiederum für weitere Textaufgaben im Kontext berücksichtigt.
Dazu passt, dass das Kontextfenster von GPT-4 um den Faktor vier größer sein soll als bei ChatGPT, und dass OpenAI mit Whisper ein leistungsfähiges Spracherkennungsmodell trainiert hat, das Audio aus Videos automatisch in Text umwandeln und damit für das KI-Training nutzbar machen kann.
Microsoft Deutschland kommentiert Brauns Aussage nicht
Ein Sprecher von Microsoft Deutschland wollte Brauns GPT-4-Aussage auf Anfrage nicht kommentieren. Er verwies aber auf eine Veranstaltung am 16. März mit dem Titel "The Future of Work with AI", bei der Microsoft-CEO Satya Nadella persönlich über den Einsatz von KI-Werkzeugen für die Produktivität sprechen wolle.
Dies wäre ein passender Rahmen für die Enthüllung von GPT-4 - mit der Einschränkung, dass GPT-4 nach wie vor ein OpenAI-Produkt ist. Durch die milliardenschwere Kooperation der beiden Unternehmen verschwimmen die Grenzen jedoch zunehmend. Schon bei GPT-3 hatte sich Microsoft Exklusivrechte gesichert.
OpenAI-Chef Sam Altman sagte im Herbst 2021, dass GPT-4 definitiv ein textbasiertes Modell ohne Multimodalität werden solle, er aber erwarte, dass multimodale Modelle in Zukunft auch in der Textgenerierung die reinen Textmodelle überholen würden.
Möglicherweise haben sich die Veröffentlichungspläne geändert und aus dem damals geplanten GPT-4 ist GPT-3.5 geworden, sodass das jetzt vorzustellende GPT-4 bereits Multimodalität bietet.
Altman kündigte Mitte Januar an, dass GPT-4 erst erscheinen solle, wenn der Marktstart "sicher und verantwortungsvoll" möglich sei und dämpfte wenig später die Erwartungen an die Fähigkeiten des Modells. Die Gerüchte um gigantische Modellgrößen in sozialen Medien seien zudem eine "lächerliche Sache", die Angaben seien aus der Luft gegriffen.