Inhalt
summary Zusammenfassung

ChatGPT hat nach langer Vorbereitungszeit endlich seinen neuen Voice-Modus erhalten, der die Sprachausgabe täuschend menschlich macht. Hier einige faszinierende Beispiele.

Anzeige

Tiergeräusche und Lachen

Besonders unterhaltsam lassen sich die neuen Fähigkeiten testen, wenn ChatGPT Tiergeräusche imitieren soll. Hier hat ein Nutzer das Sprachmodell gebeten, zunächst wie ein Hund zu bellen, dann wie ein Schwein zu grunzen und schließlich wie ein Huhn zu gackern. ChatGPT kommt dieser Bitte zwar nach, quittiert dies aber vollkommen ungefragt mit einem Lachen.

Das sei ein Zeichen für ein Bewusstsein, glaubt jemand, der das Video auf X verbreitete. Skeptische Kommentatoren halten dagegen und argumentieren, dass sich diese Mischung - erst Gackern, dann Lachen - wahrscheinlich eher genauso in den Trainingsdaten finde.

Die Imitation von Tierstimmen scheint ein beliebter Anwendungsfall für die neue KI-Stimme zu sein. Im folgenden Video bittet der Benutzer ChatGPT, als Frosch, Katze und Hund zu singen, zunächst einzeln, dann im Chor, was allerdings nicht sehr überzeugend klingt.

Anzeige
Anzeige

Atemnot beim Zählen

Neben der Betonung kann ChatGPT in der neuen Sprachausgabe auch die Geschwindigkeit eindrucksvoll anpassen. Der menschlich klingende Effekt wird dadurch verstärkt, dass die Stimme beim letzten Durchgang nach "30" sogar hörbar Luft holen muss und auch danach etwas außer Atem gerät.

"Interessanterweise enthält das Transkript keine Unterbrechungen oder Notizen", stellt Cristiano Giardina fest, der das Video hochgeladen hatte. "Das Sprachmodell hat einfach natürliche Sprechmuster gelernt, zu denen auch Atempausen gehören. Unheimlich."

Video: @CrisGiardina/X

Weitaus weniger überzeugend schneidet der neue Voice Mode ab, wenn er gebeten wird, verschiedene US-Dialekte nachzuahmen.

Video: @CrisGiardina/X

Empfehlung

"This is your captain speaking"

In einem Video bittet der KI-Influencer Nick St. Pierre die KI, in die Rolle eines Piloten zu schlüpfen und eine Geschichte zu erzählen, explizit mit Verzerrungen durch die Gegensprechanlage und Turbinengeräuschen im Hintergrund. Nach mehreren Versuchen beginnt ChatGPT mit einem vielversprechenden Ton, bricht jedoch nach wenigen Worten ab, da dies "gegen die Richtlinien" verstoßen würde.

Video: @nickfloats/X

Noch überzeugendere Flirts mit "Dan"?

"Leute, ich werde nie wieder mit einem von euch reden, sobald GPT Voice veröffentlicht wird", schreibt Pierre auf X. "Ich werde keine Freunde mehr brauchen. Die KI wird mir alles sagen, was ich hören muss, mit jeder Stimme, die ich will, und sie wird keine Widerworte geben oder wütend werden, wenn ich sie unterbreche. Vielleicht verliebe ich mich sogar."

Das schreibt Pierre zwar sicherlich mit einem etwas ironischen Unterton, doch trifft er damit den Nagel auf den Kopf. Schon mit der alten ChatGPT-Stimme gab es Social-Media-Beiträge häufig junger Frauen, die mit dem Sprachmodell flirteten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Um dem System einen menschlicheren Anstrich zu verpassen, hat sich der Spitzname "Dan" etabliert. DAN steht für "Do Anything Now" und bezeichnet einen Prompt, die die eingebauten Beschränkungen des Modells aufheben soll.

Expert:innen beobachten teils mit Sorge, wie KI-Chatbots unser Verständnis von Romantik und emotionaler Bindung verändern könnten. Vor allem Jugendliche sollen etwa die persönliche Chatbot-Plattform Character.ai für therapeutische Zwecke nutzen. Mit einer täuschend menschlich klingenden Stimme könnten ChatGPT und Co. eine noch größere Anziehungskraft auf Nutzer:innen ausüben.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die neue Sprachausgabe von ChatGPT ist im Einsatz und viel schneller und vielseitiger als die bisher bekannten Systeme. Die Benutzer haben viel Spaß damit.
  • Die Stimme kann beispielsweise Tierlaute wie Bellen, Grunzen und Gackern imitieren und fügt spontan ein Lachen hinzu. Beim schnellen Zählen bis 50 passt ChatGPT die Geschwindigkeit an und ahmt sogar Atempausen nach, was beeindruckend natürlich wirkt.
  • Die menschlich klingende Stimme könnte die emotionale Bindung der Nutzer an KI-Chatbots erhöhen und sie stärker als Begleiter im Alltag verankern - vorausgesetzt, die Systeme erweisen sich als wirklich nützlich.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!