Inhalt
summary Zusammenfassung

Bei der Präsentation von GPT-4o hat sich OpenAI hauptsächlich auf die Sprach- und Audiofunktion konzentriert. Die Besonderheit von GPT-4 ist jedoch, dass es von Grund auf multimodal ist.

GPT-4o akzeptiert jede Kombination von Text, Audio, Bild und Video als Eingabe und erzeugt jede Kombination von Text, Audio und Bild als Ausgabe. OpenAI demonstrierte nach der Enthüllung von GPT-4o einige der neuen Möglichkeiten.

So ist das Modell beispielsweise in der Lage, visuelle Erzählungen zu generieren. In einem Beispiel schreibt ein Roboter mehrere Tagebucheinträge auf einer Schreibmaschine.

Das Modell kann die Szene weiterentwickeln und zeigen, wie der Roboter die Seite zerreißt, weil er unzufrieden mit dem Geschriebenen ist. Dabei steht die Geschichte auf einem Schreibmaschinenblatt, das auf einem Bild abgebildet ist.

Anzeige
Anzeige
Bild: OpenAI

Es ist auch möglich, detaillierte und konsistente Charakterdesigns für Filme oder Geschichten zu erstellen. In einer Demo entsteht so der Roboter Geary, der Baseball spielt, programmiert, Fahrrad fährt und kocht, oder die Postbotin Sally, die Briefe austrägt und von einem Golden Retriever verfolgt wird.

Bild: OpenAI

GPT-4o beherrscht zudem unterschiedliche kreative typografische Stile. Es kann ein Gedicht etwa direkt als gestaltetes Blatt Papier ausgeben oder sogar neue Schriftarten entwickeln.

Bild: OpenAI

GPT-4o beherrscht auch die Gestaltung von Gedenkmünzen, wie sie z.B. anlässlich der Veröffentlichung von GPT-4 im Jahr 2023 herausgegeben werden. Auch futuristische oder altviktorianische Schriften sind möglich.

Bild: OpenAI

Im Bereich der 3D-Modellierung kann GPT-4o realistische 3D-Renderings von Objekten wie dem OpenAI-Logo oder einer Seehund-Skulptur erzeugen und diese aus verschiedenen Blickwinkeln darstellen. Dafür reichen einige wenige Eingabebilder.

Bild: OpenAI

Schließlich zeigen die Demos, dass das Modell in der Lage ist, kausale Zusammenhänge in Bildern zu verstehen. In einem Beispiel werden drei Würfel mit den Buchstaben "G", "P" und "T" gestapelt. Dabei muss einerseits die Reihenfolge der Buchstaben (G, P, T) und andererseits die Reihenfolge der Farben (rot, blau, grün) eingehalten werden.

Empfehlung
Bild: OpenAI

Dieser Test galt lange Zeit als Maßstab für das Weltverständnis von Bildgeneratoren. GPT-4o scheint ihn, zumindest in dieser speziellen Demonstration, über viele Versuche hinweg zuverlässig zu bestehen. Nur in einem Beispiel ist der mittlere Block rot und der obere blau.

Andere Beispiele sind das Platzieren von Logos auf Objekten, das Transkribieren und Zusammenfassen von Audio- und Videomaterial oder das Umwandeln von Fotos von Personen in neue Situationen wie Kinoplakate oder Stile wie Karikaturen.

Bild: OpenAI

Die Fülle an Fähigkeiten macht deutlich: GPT-4o ist ein Schritt in Richtung eines Omni-Modells, das Text, Bild, Audio und Video versteht und generiert.

Prafulla Dhariwal, Leiter der Omni-Entwicklung, bezeichnet Omni als das erste "vollständig native multimodale Modell" und die Einführung als "große, unternehmensweite Anstrengung".

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die neue Tokenisierung deutet darauf hin, dass das Modell von Grund auf neu entwickelt wurde. GPT-4o könnte eine Art Vorläufer von GPT-5 sein, das nun als eigenständiges Modell veröffentlicht wurde. Spekulationen zufolge ist Omni schon seit 2022 in Arbeit.

Wann und in welchem Umfang die einzelnen multimodalen Fähigkeiten in ChatGPT oder über API verfügbar sind, und wie sie sich im Vergleich zu Standalone-Modellen etwa für 3D- oder Bildgenerierung schlagen, bleibt abzuwarten.

Wie OpenAI selbst sagt: "Wir kratzen immer noch an der Oberfläche dessen, was das Modell kann und wo seine Grenzen liegen."

OpenAI verspricht einen iterativen Rollout, zunächst sollen die Audio-Fähigkeiten kommen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat GPT-4o in erster Linie als Audio-Assistenten vorgestellt. Aber es ist mehr: ein natives multimodales KI-Modell, das jede Kombination von Text, Audio, Bild und Video als Eingabe akzeptiert und Text, Audio und Bilder als Ausgabe erzeugen kann. Daraus ergeben sich viele neue Generierungsmöglichkeiten.
  • Demonstrationen zeigen die vielfältigen Fähigkeiten von GPT-4o, einschließlich der Generierung visueller Geschichten, detaillierter Charakterdesigns, kreativer Typografie, realistischer 3D-Renderings und des Verstehens kausaler Zusammenhänge in Bildern.
  • Ein iterativer Rollout der einzelnen multimodalen Fähigkeiten ist geplant, wobei Audiofunktionen als erstes verfügbar sein werden. GPT-4o ist für 2022 geplant und könnte eine Vorstufe zu GPT-5 sein.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!