Inhalt
summary Zusammenfassung

Die KI-Firma Play.ht vermarktet ihr Produkt mit einer außergewöhnlichen Idee: In einem KI-generierten Podcast unterhält sich der 2011 verstorbene Apple-Mitgründer Steve Jobs mit dem Podcast-Star Joe Rogan.

Dank KI-Technik haben Maschinenstimmen in den letzten Jahren enorme Fortschritte gemacht: Abgehaktes Roboter-Stottern ist längst fließender Sprache gewichen, die zunehmend an Dynamik bei der Intonierung und damit Emotion gewinnt.

Stimmen und Skript sind mit KI generiert

Die Firma Play.ht demonstriert das in einem neuen Podcast-Projekt, das komplett mit KI generiert ist. Play.ht verkauft Services für maschinelle Stimmen in verschiedenen Qualitätsstufen und Formaten. Ein Play.ht-Service liest etwa automatisch mit einer mehr oder weniger natürlich klingenden Stimme Blogartikel vor.

"Wir bei Play.ht glauben an eine Zukunft, in der die gesamte Inhaltserstellung von KI generiert, aber von Menschen geleitet wird. Die kreativste Arbeit wird von der Fähigkeit des Menschen abhängen, der Maschine die gewünschte Kreation zu vermitteln", schreibt die Firma.

Anzeige
Anzeige

Die Stimmen im Podcast werden mit Play.hts "Ultra-realistic Voices"-Funktion gerendert. Dabei handelt es sich laut der Firma "um die neuste Generation" maschineller Stimmen, die "fast nicht mehr unterscheidbar" sei von menschlichen Stimmen. Einen eigenen Eindruck könnt ihr euch im folgenden Podcast verschaffen.

Für das Training der Stimmgeneratoren nutzte die Firma online verfügbare Audiodaten der beiden berühmten Persönlichkeiten. Insbesondere Joe Rogan bietet dank seiner zahlreichen Video-Podcasts Trainingsmaterial in großen Mengen. Schon in der Vergangenheit gab es daher recht erfolgreiche Versuche, seinen Podcast samt Video mit KI nachzustellen.

Das Podcast-Skript generierte Play.ht mit feinjustierten Sprachmodellen. Für die Steve-Jobs-Folge trainierte die Firma eine Sprach-KI mit Jobs Biografie nach und speiste zudem "alle Aufnahmen, die online zu finden waren" ins Training ein.

Für die Zukunft sammelt Play.ht Ideen vonNutzern für weitere ungewöhnliche Podcasts. Derzeit ganz oben auf der Liste: ein Podcast zwischen Buddha und Einstein.

Play.hts-Podcast-Projekt ist nur ein Beispiel, das den Fortschritt von Maschinenstimmen und generell KI-Audio demonstriert. Ähnlich wie bei Bildgeneratoren wie DALL-E 2 oder Midjourney könnte KI-generiertes Audio Arbeitsmärkte verändern.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die KI-Firma Play.ht hat sich auf die maschinelle Sprachsynthese spezialisiert.
  • Ein neues System soll besonders hochwertige Stimmen generieren, die kaum noch von menschlichen Stimmen zu unterscheiden sind.
  • Play.ht demonstriert das anhand eines vollständig KI-generierten Podcast mit Joe Rogan und Steve Jobs.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!