Die KI-Firma Play.ht vermarktet ihr Produkt mit einer außergewöhnlichen Idee: In einem KI-generierten Podcast unterhält sich der 2011 verstorbene Apple-Mitgründer Steve Jobs mit dem Podcast-Star Joe Rogan.
Dank KI-Technik haben Maschinenstimmen in den letzten Jahren enorme Fortschritte gemacht: Abgehaktes Roboter-Stottern ist längst fließender Sprache gewichen, die zunehmend an Dynamik bei der Intonierung und damit Emotion gewinnt.
Stimmen und Skript sind mit KI generiert
Die Firma Play.ht demonstriert das in einem neuen Podcast-Projekt, das komplett mit KI generiert ist. Play.ht verkauft Services für maschinelle Stimmen in verschiedenen Qualitätsstufen und Formaten. Ein Play.ht-Service liest etwa automatisch mit einer mehr oder weniger natürlich klingenden Stimme Blogartikel vor.
"Wir bei Play.ht glauben an eine Zukunft, in der die gesamte Inhaltserstellung von KI generiert, aber von Menschen geleitet wird. Die kreativste Arbeit wird von der Fähigkeit des Menschen abhängen, der Maschine die gewünschte Kreation zu vermitteln", schreibt die Firma.
Die Stimmen im Podcast werden mit Play.hts "Ultra-realistic Voices"-Funktion gerendert. Dabei handelt es sich laut der Firma "um die neuste Generation" maschineller Stimmen, die "fast nicht mehr unterscheidbar" sei von menschlichen Stimmen. Einen eigenen Eindruck könnt ihr euch im folgenden Podcast verschaffen.
Für das Training der Stimmgeneratoren nutzte die Firma online verfügbare Audiodaten der beiden berühmten Persönlichkeiten. Insbesondere Joe Rogan bietet dank seiner zahlreichen Video-Podcasts Trainingsmaterial in großen Mengen. Schon in der Vergangenheit gab es daher recht erfolgreiche Versuche, seinen Podcast samt Video mit KI nachzustellen.
Das Podcast-Skript generierte Play.ht mit feinjustierten Sprachmodellen. Für die Steve-Jobs-Folge trainierte die Firma eine Sprach-KI mit Jobs Biografie nach und speiste zudem "alle Aufnahmen, die online zu finden waren" ins Training ein.
Für die Zukunft sammelt Play.ht Ideen vonNutzern für weitere ungewöhnliche Podcasts. Derzeit ganz oben auf der Liste: ein Podcast zwischen Buddha und Einstein.
Play.hts-Podcast-Projekt ist nur ein Beispiel, das den Fortschritt von Maschinenstimmen und generell KI-Audio demonstriert. Ähnlich wie bei Bildgeneratoren wie DALL-E 2 oder Midjourney könnte KI-generiertes Audio Arbeitsmärkte verändern.