Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Wie bedienen wir in einigen Jahren Computer? Womöglich sehr anders als heute. Ein Entwickler gibt einen Ausblick, indem er drei KI-Systeme für eine digitale Design-Assistentin miteinander verknüpft.

Für seine KI-basierte Design-Assistenz verbindet der Twitter-Nutzer Progen drei KI-Systeme: die Open-Source Bild-KI Stable Diffusion für die Bildgenerierung, OpenAIs Whisper, ebenfalls Open Source, für die Übersetzung von gesprochenem Wort ins Englische und GPT-3 für die Dialoge mit der Assistentin.

Durch Rückfragen zur Aufgaben-Präzisierung

Das Ergebnis: Progen kann mit der Assistentin einfache Gespräche führen und ihr Anweisungen für Bildideen geben. Sie bestätigt Arbeitsanweisungen, führt sie entweder direkt aus oder stellt Rückfragen.

Bei der Aufforderung "Lass uns ein Haus designen" fragt die Assistentin nach, ob es sich um einen Außenbereich oder den Innenraum handelt. Dann fragt sie nach dem zu verwendenden Baumaterial, nach dem Standort des Hauses sowie nach der Jahreszeit. Progens Antworten fließen in die Bildidee ein.

Anzeige
Anzeige

Metahuman Creator mit Stable Diffusion, OpenAI Whisper und GPT-3 - fertig ist die digitale Design-Assistentin, die Anweisungen in mehreren Sprachen in Bildideen übersetzt. | Video: Progen via Twitter

Für die Avatar-Generierung verwendete Progen den Digitalmensch-Baukasten "Metahuman Creator" der 3D-Engine-Firma Epic Games. Epic veröffentlichte die Software für beinahe fotorealistische Avatare im April 2021 und sieht sie unter anderem als Grundlage für die Entwicklung virtueller Wesen.

Progen sieht in seinem Projekt einen Machbarkeitsnachweis. Interessant ist es zum einen wegen der Verknüpfung dreier KI-Systeme, von denen zwei Open Source sind.

Zum anderen zeigt die Demonstration eine neue Art, wie Menschen zukünftig mit Computern interagieren, die umfangreiche Aufgaben automatisch durchführen und diese Aufgaben durch Rückfragen und menschliches Feedback eigenständig präzisieren können.

Diese Ausrichtung anhand menschlicher Bedürfnisse ist ein Grundlagenthema der Alignment-Forschung, die in ihrer Komplexität allerdings weit über das hier gezeigte Beispiel hinausgeht. Für den Arbeitsalltag ist Progens Demo eingeschränkt brauchbar, da die Latenz noch recht hoch ist - dieses Problem ließe sich wohl durch Optimierungen lösen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Wie bedienen wir in einigen Jahren Computer? Womöglich sehr anders als heute.
  • Ein Entwickler gibt einen Ausblick, indem er drei KI-Systeme miteinander verknüpft.
  • Mit Whisper und GPT-3 von OpenAI sowie Stable Diffusion erschafft er eine digitale Assistentin, mit der er im Dialog Bildideen bespricht und generiert.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!