KI in der Praxis

Entwickler vernetzt Stable Diffusion, Whisper und GPT-3 für futuristische Design-Assistentin

Matthias Bastian

Progen via Twitter

Wie bedienen wir in einigen Jahren Computer? Womöglich sehr anders als heute. Ein Entwickler gibt einen Ausblick, indem er drei KI-Systeme für eine digitale Design-Assistentin miteinander verknüpft.

Für seine KI-basierte Design-Assistenz verbindet der Twitter-Nutzer Progen drei KI-Systeme: die Open-Source Bild-KI Stable Diffusion für die Bildgenerierung, OpenAIs Whisper, ebenfalls Open Source, für die Übersetzung von gesprochenem Wort ins Englische und GPT-3 für die Dialoge mit der Assistentin.

Durch Rückfragen zur Aufgaben-Präzisierung

Das Ergebnis: Progen kann mit der Assistentin einfache Gespräche führen und ihr Anweisungen für Bildideen geben. Sie bestätigt Arbeitsanweisungen, führt sie entweder direkt aus oder stellt Rückfragen.

Bei der Aufforderung "Lass uns ein Haus designen" fragt die Assistentin nach, ob es sich um einen Außenbereich oder den Innenraum handelt. Dann fragt sie nach dem zu verwendenden Baumaterial, nach dem Standort des Hauses sowie nach der Jahreszeit. Progens Antworten fließen in die Bildidee ein.

Metahuman Creator mit Stable Diffusion, OpenAI Whisper und GPT-3 - fertig ist die digitale Design-Assistentin, die Anweisungen in mehreren Sprachen in Bildideen übersetzt. | Video: Progen via Twitter

Für die Avatar-Generierung verwendete Progen den Digitalmensch-Baukasten "Metahuman Creator" der 3D-Engine-Firma Epic Games. Epic veröffentlichte die Software für beinahe fotorealistische Avatare im April 2021 und sieht sie unter anderem als Grundlage für die Entwicklung virtueller Wesen.

Progen sieht in seinem Projekt einen Machbarkeitsnachweis. Interessant ist es zum einen wegen der Verknüpfung dreier KI-Systeme, von denen zwei Open Source sind.

Zum anderen zeigt die Demonstration eine neue Art, wie Menschen zukünftig mit Computern interagieren, die umfangreiche Aufgaben automatisch durchführen und diese Aufgaben durch Rückfragen und menschliches Feedback eigenständig präzisieren können.

Diese Ausrichtung anhand menschlicher Bedürfnisse ist ein Grundlagenthema der Alignment-Forschung, die in ihrer Komplexität allerdings weit über das hier gezeigte Beispiel hinausgeht. Für den Arbeitsalltag ist Progens Demo eingeschränkt brauchbar, da die Latenz noch recht hoch ist - dieses Problem ließe sich wohl durch Optimierungen lösen.

Quellen: