Inhalt
summary Zusammenfassung

OpenAI ermöglicht Entwicklern die Integration realistischer KI-Stimmen in Apps und das Feintuning von GPT-4o mit Bildern. Die neuen Funktionen sollen die Interaktion mit KI-Systemen natürlicher gestalten.

Anzeige

OpenAI hat auf seiner Entwicklerkonferenz DevDay neue Möglichkeiten für App-Entwickler angekündigt. Ab sofort können sie die fortschrittliche Sprachsynthese-Technologie des Unternehmens in ihre Anwendungen integrieren.

Die als "Realtime API" bezeichnete Schnittstelle bietet sechs KI-Stimmen zur Auswahl. Diese unterscheiden sich laut OpenAI von den für ChatGPT verwendeten Stimmen. Um urheberrechtliche Probleme zu vermeiden, dürfen Entwickler keine Stimmen von Dritten einsetzen.

In einer Präsentation zeigte OpenAI eine Reiseplanungs-App, die mit der Realtime API entwickelt wurde. Nutzer konnten verbal mit einem KI-Assistenten über eine London-Reise sprechen und erhielten Antworten mit geringer Latenz. Die API kann auch Karten mit Restaurantempfehlungen annotieren.

Anzeige
Anzeige

Die Technologie kann auch in Telefonanrufe integriert werden, etwa um Bestellungen aufzugeben. OpenAI fügt jedoch keine automatische Offenlegung hinzu, dass es sich um eine KI-Stimme handelt. Das bleibt vorerst in der Verantwortung der Entwickler.

Neue Funktionen für GPT-4o und Kosteneinsparungen

Neben der Sprachsynthese kündigte OpenAI weitere Neuerungen an. Entwickler können nun auch Bilder zum Feintuning von GPT-4o verwenden. Mit nur 100 Beispielbildern lässt sich die Leistung des Modells für bestimmte visuelle Aufgaben verbessern.

Eine neue Prompt-Caching-Funktion soll Kosten und Latenz reduzieren. Durch die Wiederverwendung kürzlich gesehener Eingabe-Tokens können Entwickler einen Rabatt von 50 Prozent und schnellere Verarbeitungszeiten erzielen.

Das Prompt-Caching wird automatisch auf die neuesten Versionen von GPT-4o, GPT-4o mini, o1-preview und o1-mini sowie auf feinabgestimmte Versionen dieser Modelle angewendet.

Mit "Modell-Destillation" lassen sich kleinere Modelle wie GPT-4o mini mithilfe der Outputs größerer Modelle optimieren. OpenAI stellt dafür neue integrierte Werkzeuge bereit, darunter gespeicherte Vervollständigungen und Evaluierungsmöglichkeiten.

Empfehlung

OpenAI verdoppelt zudem das Rate-Limit für sein neues o1-Modell. Um Entwicklern den Einstieg zu erleichtern, bietet das Unternehmen bis Ende Oktober kostenlose Trainingskontingente für GPT-4o und GPT-4o mini an.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat neue Funktionen für Entwickler vorgestellt, darunter die Integration realistischer KI-Stimmen in Apps und das Feintuning von GPT-4o mit Bildern. Ziel ist es, die Interaktion mit KI-Systemen natürlicher zu gestalten.
  • Die "Realtime API" bietet sechs KI-Stimmen zur Auswahl und kann in Anwendungen wie Reiseplanungs-Apps oder Telefonanrufe integriert werden. OpenAI überlässt es den Entwicklern, die Nutzung von KI-Stimmen offenzulegen.
  • Weitere Neuerungen umfassen Prompt-Caching zur Kostenreduzierung, Modell-Destillation zur Optimierung kleinerer Modelle und neue Evaluations-Tools. OpenAI verdoppelt zudem das Rate-Limit für das o1-Modell.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!