Resemble AI mischt menschliche und synthetische Stimmen

3. Dezember 2023

Resemble AI (Screenshot)

Resemble AI ist ein AI-Stimmen-Toolkit, das GPT 3.5 und eigene Modelle verwendet, die über eine API verfügbar sind.

Zu den Hauptfunktionen von Resemble gehören das Klonen von Stimmen, das Überblenden von Stimmen und die Lokalisierung. Die Lokalisierungsfunktion ermöglicht die Erstellung synthetischer Stimmen in mehreren Sprachen, um die Reichweite von Inhalten für ein globales Publikum zu erhöhen.

Mit der Voice-Blending-Funktion von Resemble können Nutzer menschliche und synthetische Stimmen zu einem nahtlosen Audioerlebnis kombinieren.

KI-Technologie

Das Toolkit von Resemble AI umfasst Text-to-Speech, Speech-to-Speech, neuronale Audiobearbeitung und Sprachvertonung für eine Vielzahl von Anwendungen. Die Audioqualität ist beeindruckend.

Die Emotionsfunktion der Plattform fügt der Sprache zahlreiche Emotionen hinzu, ohne dass neue Daten benötigt werden, und ermöglicht so eine nuanciertere und authentischere Kommunikation.

Darüber hinaus unterstützt die Plattform die Sprachumwandlung in Echtzeit mit granularer Kontrolle über Tonfall und Intonation.

Anwendungsfälle

Resemble AI behauptet, sein Produkt mit 200.000 KI-Stimmen, die monatlich mehr als zwei Millionen Minuten Audio produzieren, perfektioniert zu haben. Resemble AI ist in verschiedenen Branchen weit verbreitet, auch auf Unternehmensebene.

Das Resemblezer-Python-Paket kann für Sprecherverifizierung, Digitalisierung, Deepfake-Erkennung und vieles mehr verwendet werden.

Spiele-Entwicklung

Mit einem einfachen Unity-Plugin können Spieleentwickler einzigartige Stimmen und Sprachressourcen erstellen, sie mit Charakteren verknüpfen und animieren.

Auf Github ist Beispielcode für ein Alexa-Skill-Projekt verfügbar, das zeigt, wie mit GPT-3 KI-generierter Text dynamisch mit einer benutzerdefinierten Resemble-Stimme verknüpft werden kann.

Die Gründer

Die treibende Kraft hinter Resemble AI sind die Mitbegründer Saqib Muhammad und Zohaib Ahmed.

Muhammad lebt in Kalifornien, hat aber in Kanada studiert. Er hat einen Abschluss in Betriebswirtschaft von der McGill University und arbeitete für Kapitalverwaltungsgesellschaften.

Ahmed ist Softwareentwickler und hat früher bei Blackberry gearbeitet. Er studierte Informatik an der Universität von Toronto.

Preise

Resemble AI bietet ein flexibles Preismodell, das sich an die Bedürfnisse des Benutzers anpasst.

Der "Basic"-Plan ist ein Preismodell, das benutzerdefinierte Stimmen, die über das Internet aufgenommen werden, die Lokalisierung in Spanisch (MX) und Französisch und den Zugang zu mehr als 50 Marktplatz-Stimmen umfasst. Der Preis pro Sekunde beträgt 0,006 $.

Für umfangreichere Anforderungen bietet der "Pro"-Tarif zusätzliche Funktionen wie das Hochladen von benutzerdefinierten Daten, erweiterte Emotionssteuerung, APIs mit niedriger Latenz und multilinguale Unterstützung in über 24 Sprachen. Die Preisstruktur ist nicht öffentlich zugänglich.

Beide Pläne umfassen eine unbegrenzte Anzahl von Teambenutzern und Projekten, wobei der Pro-Plan mehr erweiterte Funktionen bietet.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren