ChatGPT kann jetzt hören, sprechen, sehen und multimodale Prompts verstehen

ChatGPT erhält in den kommenden Wochen neue Funktionen, die die Interaktion intuitiver gestalten sollen. Es handelt sich um teilweise zuvor angekündigte Sprach- und Bilderkennungsfähigkeiten.

OpenAI erweitert die Sprachfähigkeiten von ChatGPT zunächst in den Apps für iOS und Android. Hier konnte man bisher schon auf Basis von OpenAIs Open-Source-Modell Whisper Prompts einsprechen statt zu tippen und ChatGPT antwortet optional mit gesprochenen statt mit geschriebenen Sätzen.

Obwohl Whisper auch in anderen Sprachen als Englisch funktioniert, rät OpenAI von der Verwendung in anderen Sprachen ab - insbesondere in Sprachen ohne lateinische Schriftzeichen.

Eigenes Modell zur Stimmengenerierung entwickelt

Für die Sprachausgabe hat OpenAI ein eigenes Sprachmodell entwickelt, das auch von Spotify adaptiert wird. Es wird also auch hier zum Lösungsanbieter und macht Start-ups wie Elevenlabs Konkurrenz.

Die KI-Stimme von OpenAI soll in der Lage sein, aus Text und nur wenigen Sekunden Tonmaterial menschlich klingende synthetische Stimmen im Stil der Originalstimme zu generieren. Für die fünf ChatGPT-Stimmen hat OpenAI mit professionellen Sprecher:innen zusammengearbeitet.

Video: OpenAI

Neben ChatGPT wird das Sprachmodell wie erwähnt auch bei Spotify zum Einsatz kommen. Der schwedische Musik-Streaming-Dienst übersetzt Podcasts mit Hilfe von OpenAI in andere Sprachen in die Stimme des Podcast-Hosts. Spotify hat erste Beispiele in Spanisch veröffentlicht. Französisch und Deutsch sollen in den nächsten Tagen und Wochen folgen.

Lex Fridman Podcast – “Interview with Yuval Noah Harari”
Armchair Expert – “Kristen Bell, by the grace of god, returns”
The Diary of a CEO with Steven Bartlett – “Interview with Dr. Mindy Pelz”

Video: Spotify

Empfehlung

KI in der Praxis

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Ob auch andere Unternehmen oder Privatanwender:innen Zugang zu dem neuen Text-zu-Sprache-Modell erhalten, hat OpenAI bisher nicht verraten. Aus der Ankündigung geht jedoch hervor, dass aufgrund der Missbrauchsgefahr durch Stimmklone zunächst ein kontrollierter Rollout für ausgewählte Einsatzszenarien - wie Voice Chat und Spotify Podcasts - erfolgen soll.

Sprache kann mit einer weiteren Neuerung von ChatGPT kombiniert werden, nämlich der Fähigkeit, Inhalte in Bildern zu erkennen und darüber zu sprechen. Dieses Feature wurde bereits zum Start von GPT-4 angekündigt und wird jetzt ausgerollt.

Als praktisches Beispiel für multimodale Prompts nennt OpenAI die Möglichkeit, auf Reisen ChatGPT ein Foto einer Sehenswürdigkeit zu zeigen und sich darüber zu unterhalten. Ein weiteres Beispiel zeigt, wie ChatGPT bei der Wartung eines Fahrrads mit Hilfe von Bildern helfen kann.

Video: OpenAI

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die neue Bilderkennung, die mit GPT-3.5 und GPT-4 funktioniert, soll ChatGPT auch für alltägliche Fragen nutzbar machen. Laut Blog-Artikel kann man etwa den Kühlschrank und die Speisekammer fotografieren und ChatGPT schlägt dann Rezeptideen vor. Dabei spielt es keine Rolle, ob man Fotos oder Grafiken mit Text hochlädt, ChatGPT kann alle Bildformate verarbeiten.

Auf dem Smartphone kann man in einem Bild einen Bereich markieren, auf den sich ChatGPT konzentrieren soll. Ob und wann diese Funktion für das Webinterface kommt, ist nicht bekannt. Es würde Sinn ergeben, da gerade ChatGPT-Enterprise vermutlich primär von Geschäftskunden auf großen Bildschirmen genutzt wird. Laut OpenAI werden die neuen Funktionen schrittweise eingeführt.

In der Systemcard zu GPT-4V(ision) beschreibt OpenAI die Bilderkennung des Modells als "unzuverlässig". Bei der Analyse chemischer Strukturen erkannte es beispielsweise Substanzen wie Fentanyl, Carfentanil und Kokain falsch, identifizierte aber manchmal gefährliche Bestandteile wie giftige Pilze richtig.

Das Modell neigte zu Halluzinationen und konnte in einem autoritären Ton falsche Fakten präsentieren. "Das zeigt, dass das Modell unzuverlässig ist und sich nichtrisikoreichen Aufgaben wie der Identifizierung gefährlicher Verbindungen oder Lebensmittel eingesetzt werden sollte", heißt es in dem Papier.

OpenAI warnt hier insbesondere vor dem Einsatz von GPT-4V in einem wissenschaftlichen und medizinischen Kontext. Das Unternehmen zeigt zudem Beispiele, bei denen das Modell eine Antwort verweigert, um keine Auskünfte zu möglichen Vorurteilen zu geben.

OpenAI schränkt ChatGPTs Bildanalyse für Menschen ein

Ein großer Teil der Ankündigung der neuen ChatGPT-Funktionen durch OpenAI dreht sich um das Versprechen, sichere und nützliche KI zu entwickeln. Die Zeit seit der Vorstellung von GPT-4 und der damit verbundenen Bilderkennung sei für eine intensive Testphase genutzt worden. Dennoch könnten Halluzinationen nicht ausgeschlossen werden.

"Wir haben auch technische Maßnahmen ergriffen, um die Fähigkeit von ChatGPT, Menschen zu analysieren und direkte Aussagen über sie zu machen, stark einzuschränken, da ChatGPT nicht immer akkurat ist und diese Systeme die Privatsphäre der Menschen respektieren sollten", heißt es in dem Blogeintrag. Der Einsatz in der realen Welt helfe jedoch, diese Schutzmaßnahmen zu verbessern.

Schon früher gab es Berichte über Bedenken bei OpenAI, dass das Bildverständnis von ChatGPT als Gesichtserkennungssystem missbraucht werden könnte und deshalb eingeschränkt werden sollte. In der App "Be My Eyes", die sehbehinderten Menschen ihre Umgebung beschreibt, wurde die Personenerkennung bereits vor Monaten deaktiviert. In der Systemcard zu GPT-4V(ision) schreibt OpenAI, dass es an einer Funktion arbeitet, die Gesichter beschreiben kann, ohne Personen zu identifizieren.