OpenAI ermöglicht Entwicklern die Integration realistischer KI-Stimmen in Apps und das Feintuning von GPT-4o mit Bildern. Die neuen Funktionen sollen die Interaktion mit KI-Systemen natürlicher gestalten.
OpenAI hat auf seiner Entwicklerkonferenz DevDay neue Möglichkeiten für App-Entwickler angekündigt. Ab sofort können sie die fortschrittliche Sprachsynthese-Technologie des Unternehmens in ihre Anwendungen integrieren.
Die als "Realtime API" bezeichnete Schnittstelle bietet sechs KI-Stimmen zur Auswahl. Diese unterscheiden sich laut OpenAI von den für ChatGPT verwendeten Stimmen. Um urheberrechtliche Probleme zu vermeiden, dürfen Entwickler keine Stimmen von Dritten einsetzen.
In einer Präsentation zeigte OpenAI eine Reiseplanungs-App, die mit der Realtime API entwickelt wurde. Nutzer konnten verbal mit einem KI-Assistenten über eine London-Reise sprechen und erhielten Antworten mit geringer Latenz. Die API kann auch Karten mit Restaurantempfehlungen annotieren.
Die Technologie kann auch in Telefonanrufe integriert werden, etwa um Bestellungen aufzugeben. OpenAI fügt jedoch keine automatische Offenlegung hinzu, dass es sich um eine KI-Stimme handelt. Das bleibt vorerst in der Verantwortung der Entwickler.
Neue Funktionen für GPT-4o und Kosteneinsparungen
Neben der Sprachsynthese kündigte OpenAI weitere Neuerungen an. Entwickler können nun auch Bilder zum Feintuning von GPT-4o verwenden. Mit nur 100 Beispielbildern lässt sich die Leistung des Modells für bestimmte visuelle Aufgaben verbessern.
Eine neue Prompt-Caching-Funktion soll Kosten und Latenz reduzieren. Durch die Wiederverwendung kürzlich gesehener Eingabe-Tokens können Entwickler einen Rabatt von 50 Prozent und schnellere Verarbeitungszeiten erzielen.
Das Prompt-Caching wird automatisch auf die neuesten Versionen von GPT-4o, GPT-4o mini, o1-preview und o1-mini sowie auf feinabgestimmte Versionen dieser Modelle angewendet.
Mit "Modell-Destillation" lassen sich kleinere Modelle wie GPT-4o mini mithilfe der Outputs größerer Modelle optimieren. OpenAI stellt dafür neue integrierte Werkzeuge bereit, darunter gespeicherte Vervollständigungen und Evaluierungsmöglichkeiten.
OpenAI verdoppelt zudem das Rate-Limit für sein neues o1-Modell. Um Entwicklern den Einstieg zu erleichtern, bietet das Unternehmen bis Ende Oktober kostenlose Trainingskontingente für GPT-4o und GPT-4o mini an.