Inhalt
summary Zusammenfassung

OpenAI bringt sein multimodales Bildgenerierungsmodell "gpt-image-1" aus ChatGPT in die API. Zahlreiche Unternehmen integrieren die Technologie bereits – von Adobe bis Figma.

Anzeige

OpenAI stellt sein bislang nur in ChatGPT verfügbares Bildgenerierungsmodell "gpt-image-1" nun auch über die API zur Verfügung. Das multimodale Modell generierte in der ersten Woche nach Einführung mehr als 700 Millionen Bilder für mehr als 130 Millionen Nutzer, wie OpenAI mitteilt.

Durch die Entwickler-Freigabe dürfte es bald noch deutlich mehr werden. Abseits des Ghibli-Hypes überzeugt das OpenAI-Modell durch eine sehr genaue Prompt-Befolgung, viel genauer als bei allen anderen verfügbaren Bildmodellen. Auch das neue Midjourney-v7 enttäuscht im Vergleich auf ganzer Linie.

KI-Bilder kosten nur wenige Cent

Die Bildverarbeitung wird in Token abgerechnet. Die Preisstruktur unterscheidet zwischen Text-, Bild-Input- und Bild-Output-Token. Ein Text-Token kostet $5 pro eine Million, ein Bild-Input-Token $10 und ein Bild-Output-Token $40 pro eine Million. Je nach Bildqualität ergeben sich Kosten von etwa $0.02 bis $0.19 pro Bild.

Anzeige
Anzeige

Bei GPT-4.1 und GPT-4o hängt der Tokenverbrauch von Bildgröße und gewähltem Detailgrad ab. Bei "detail: low" fallen pauschal 85 Token an. Bei "detail: high" wird die Bildfläche in 512px-Kacheln unterteilt – jede Kachel kostet 170 Token zusätzlich zum Basistarif. Eine 1024x1024-Bilddatei in hoher Detailtiefe ergibt beispielsweise 765 Token (4 Kacheln + 85 Basistoken).

Für andere Modelle wie GPT-4.1-mini erfolgt die Berechnung über 32x32-Pixel-Patches. Die maximale Tokenanzahl für Bilder liegt bei 1.536. Die genaue Berechnung hängt vom Modelltyp ab und ist auf der OpenAI-Preisseite dokumentiert. Ein Bild mit 1800 × 2400 Pixeln wird vorab skaliert, damit es innerhalb des Tokenlimits verarbeitet werden kann.

Qualität Quadrat (1024×1024) Hochformat (1024×1536) Querformat (1536×1024)
Low 272 Tokens 408 Tokens 400 Tokens
Medium 1056 Tokens 1584 Tokens 1568 Tokens
High 4160 Tokens 6240 Tokens 6208 Tokens

Bilder können entweder über direkte URLs oder als Base64-kodierte Daten eingebunden werden. Die API akzeptiert PNG, JPEG, WEBP und nicht-animierte GIFs bis zu 20 MB; bei hoher Detailtiefe wird auf eine Auflösung bis zu 768 × 2000 Pixel skaliert.

Das Modell erkennt visuelle Inhalte wie Objekte, Farben, Formen und eingebetteten Text. Bei kleinen Texten, nicht-lateinischen Schriften, rotierten Bildern oder komplexen Diagrammen gibt es jedoch Einschränkungen. Auch medizinische Bilder, CAPTCHAs und Aufgaben mit hoher räumlicher Präzision sind nicht geeignet. Die Interpretation zählt in der Regel als Näherung – beispielsweise bei Objektanzahl oder Positionen.

Bilder mit Wasserzeichen, Text oder NSFW-Inhalten werden nicht akzeptiert. Der Detailgrad der Analyse lässt sich über das Parameter "detail" steuern – mit den Optionen "low", "high" oder "auto".

Empfehlung

Bildverarbeitung auch über Responses API geplant

Neben der Bilderzeugung über die Images API ist auch die Analyse von Bildern möglich. Die Chat Completions API sowie die Responses API erlauben es, Bilder als Eingabe zu verarbeiten und textuelle Ausgaben zu erzeugen. Unterstützung für Bildgenerierung über die Responses API soll folgen.

Organisationen müssen für die Freischaltung des Modells möglicherweise verifiziert werden. Informationen zur Zugriffsverwaltung finden sich in den Organisationseinstellungen. Entwickler können das Modell über den Playground oder über den offiziellen Image-Generation-Guide testen.

Das Modell verwendet dieselben Sicherheitsmechanismen wie die Bildgenerierung in ChatGPT-4o. Dazu zählen Filter gegen schädliche Inhalte sowie C2PA-Metadaten zur Herkunftskennzeichnung. Über das Parameter "moderation" können Entwickler die Filterstärke anpassen. OpenAI betont, dass keine Kundendaten aus der API für das Training verwendet werden. Alle Ein- und Ausgaben unterliegen den API-Nutzungsrichtlinien.

OpenAI berichtet über erste Kundenprojekte

Unternehmen wie Adobe (Creative Cloud), Figma (Design-Plattform), Airtable (Workflow-Automatisierung), Wix (Website-Design) und Photoroom (E-Commerce-Visuals) setzen die API laut OpenAI bereits produktiv ein. Adobe integriert die Bildgenerierung in seine Firefly- und Express-Apps, um Kreativen mehr Auswahl und Flexibilität bei der Erprobung verschiedener ästhetischer Stile zu bieten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch Firmen wie Gamma, HeyGen, OpusClip und Quora nutzen das Modell für spezifische Anwendungen wie Präsentationsgrafiken, Avatar-Erstellung, YouTube-Thumbnails oder als Standard-Bildgenerator. Auch Instacart (Rezeptbilder) und Invideo (Videobearbeitung) experimentieren mit der Technologie.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI bietet das multimodale Bildgenerierungsmodell "gpt-image-1", das bisher nur in ChatGPT verfügbar war, nun auch über eine API an.
  • Die Preisstruktur unterscheidet zwischen Text-, Bild-Input- und Bild-Output-Token; je nach Bildqualität kostet die Erzeugung eines Bildes zwischen $0.02 und $0.19.
  • Neben der reinen Bilderzeugung ist auch die Analyse und Verarbeitung von Bildern über die API möglich. Entwickler können Sicherheitsfilter und Moderationsgrade steuern, und OpenAI betont, dass keine API-Kundendaten für Trainingszwecke verwendet werden.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!