Anzeige
Skip to content

Entwickler vernetzt Stable Diffusion, Whisper und GPT-3 für futuristische Design-Assistentin

Image description
Progen via Twitter

Wie bedienen wir in einigen Jahren Computer? Womöglich sehr anders als heute. Ein Entwickler gibt einen Ausblick, indem er drei KI-Systeme für eine digitale Design-Assistentin miteinander verknüpft.

Für seine KI-basierte Design-Assistenz verbindet der Twitter-Nutzer Progen drei KI-Systeme: die Open-Source Bild-KI Stable Diffusion für die Bildgenerierung, OpenAIs Whisper, ebenfalls Open Source, für die Übersetzung von gesprochenem Wort ins Englische und GPT-3 für die Dialoge mit der Assistentin.

Durch Rückfragen zur Aufgaben-Präzisierung

Das Ergebnis: Progen kann mit der Assistentin einfache Gespräche führen und ihr Anweisungen für Bildideen geben. Sie bestätigt Arbeitsanweisungen, führt sie entweder direkt aus oder stellt Rückfragen.

Bei der Aufforderung "Lass uns ein Haus designen" fragt die Assistentin nach, ob es sich um einen Außenbereich oder den Innenraum handelt. Dann fragt sie nach dem zu verwendenden Baumaterial, nach dem Standort des Hauses sowie nach der Jahreszeit. Progens Antworten fließen in die Bildidee ein.

Anzeige
DEC_D_Incontent-1

Metahuman Creator mit Stable Diffusion, OpenAI Whisper und GPT-3 - fertig ist die digitale Design-Assistentin, die Anweisungen in mehreren Sprachen in Bildideen übersetzt. | Video: Progen via Twitter

Für die Avatar-Generierung verwendete Progen den Digitalmensch-Baukasten "Metahuman Creator" der 3D-Engine-Firma Epic Games. Epic veröffentlichte die Software für beinahe fotorealistische Avatare im April 2021 und sieht sie unter anderem als Grundlage für die Entwicklung virtueller Wesen.

Progen sieht in seinem Projekt einen Machbarkeitsnachweis. Interessant ist es zum einen wegen der Verknüpfung dreier KI-Systeme, von denen zwei Open Source sind.

Zum anderen zeigt die Demonstration eine neue Art, wie Menschen zukünftig mit Computern interagieren, die umfangreiche Aufgaben automatisch durchführen und diese Aufgaben durch Rückfragen und menschliches Feedback eigenständig präzisieren können.

Anzeige
DEC_D_Incontent-2

Diese Ausrichtung anhand menschlicher Bedürfnisse ist ein Grundlagenthema der Alignment-Forschung, die in ihrer Komplexität allerdings weit über das hier gezeigte Beispiel hinausgeht. Für den Arbeitsalltag ist Progens Demo eingeschränkt brauchbar, da die Latenz noch recht hoch ist - dieses Problem ließe sich wohl durch Optimierungen lösen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Twitter

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren