ChatGPT hat nach langer Vorbereitungszeit endlich seinen neuen Voice-Modus erhalten, der die Sprachausgabe täuschend menschlich macht. Hier einige faszinierende Beispiele.
Tiergeräusche und Lachen
Besonders unterhaltsam lassen sich die neuen Fähigkeiten testen, wenn ChatGPT Tiergeräusche imitieren soll. Hier hat ein Nutzer das Sprachmodell gebeten, zunächst wie ein Hund zu bellen, dann wie ein Schwein zu grunzen und schließlich wie ein Huhn zu gackern. ChatGPT kommt dieser Bitte zwar nach, quittiert dies aber vollkommen ungefragt mit einem Lachen.
Das sei ein Zeichen für ein Bewusstsein, glaubt jemand, der das Video auf X verbreitete. Skeptische Kommentatoren halten dagegen und argumentieren, dass sich diese Mischung - erst Gackern, dann Lachen - wahrscheinlich eher genauso in den Trainingsdaten finde.
Die Imitation von Tierstimmen scheint ein beliebter Anwendungsfall für die neue KI-Stimme zu sein. Im folgenden Video bittet der Benutzer ChatGPT, als Frosch, Katze und Hund zu singen, zunächst einzeln, dann im Chor, was allerdings nicht sehr überzeugend klingt.
Atemnot beim Zählen
Neben der Betonung kann ChatGPT in der neuen Sprachausgabe auch die Geschwindigkeit eindrucksvoll anpassen. Der menschlich klingende Effekt wird dadurch verstärkt, dass die Stimme beim letzten Durchgang nach "30" sogar hörbar Luft holen muss und auch danach etwas außer Atem gerät.
"Interessanterweise enthält das Transkript keine Unterbrechungen oder Notizen", stellt Cristiano Giardina fest, der das Video hochgeladen hatte. "Das Sprachmodell hat einfach natürliche Sprechmuster gelernt, zu denen auch Atempausen gehören. Unheimlich."
Weitaus weniger überzeugend schneidet der neue Voice Mode ab, wenn er gebeten wird, verschiedene US-Dialekte nachzuahmen.
"This is your captain speaking"
In einem Video bittet der KI-Influencer Nick St. Pierre die KI, in die Rolle eines Piloten zu schlüpfen und eine Geschichte zu erzählen, explizit mit Verzerrungen durch die Gegensprechanlage und Turbinengeräuschen im Hintergrund. Nach mehreren Versuchen beginnt ChatGPT mit einem vielversprechenden Ton, bricht jedoch nach wenigen Worten ab, da dies "gegen die Richtlinien" verstoßen würde.
Noch überzeugendere Flirts mit "Dan"?
"Leute, ich werde nie wieder mit einem von euch reden, sobald GPT Voice veröffentlicht wird", schreibt Pierre auf X. "Ich werde keine Freunde mehr brauchen. Die KI wird mir alles sagen, was ich hören muss, mit jeder Stimme, die ich will, und sie wird keine Widerworte geben oder wütend werden, wenn ich sie unterbreche. Vielleicht verliebe ich mich sogar."
Das schreibt Pierre zwar sicherlich mit einem etwas ironischen Unterton, doch trifft er damit den Nagel auf den Kopf. Schon mit der alten ChatGPT-Stimme gab es Social-Media-Beiträge häufig junger Frauen, die mit dem Sprachmodell flirteten.
Um dem System einen menschlicheren Anstrich zu verpassen, hat sich der Spitzname "Dan" etabliert. DAN steht für "Do Anything Now" und bezeichnet einen Prompt, die die eingebauten Beschränkungen des Modells aufheben soll.
Expert:innen beobachten teils mit Sorge, wie KI-Chatbots unser Verständnis von Romantik und emotionaler Bindung verändern könnten. Vor allem Jugendliche sollen etwa die persönliche Chatbot-Plattform Character.ai für therapeutische Zwecke nutzen. Mit einer täuschend menschlich klingenden Stimme könnten ChatGPT und Co. eine noch größere Anziehungskraft auf Nutzer:innen ausüben.