Gemeinsam an KI-Bildern arbeiten? Das funktioniert mit DiffusionCraft, das Minecraft-Modelle per Stable Diffusion in KI-Bilder verwandelt.
Eigentlich lag es auf der Hand, dass jemand früher oder später solch ein Projekt angehen würde: die Kombination von Minecraft mit einem KI-Bildgenerator. Schließlich haben beide Technologien etwas gemeinsam, nämlich eine eher niedrige Einstiegshürde und sie eröffnen Nutzer:innen praktisch unendliche Möglichkeiten, ihre Kreativität auszuleben.
Seit Stable Diffusion Ende August als Open-Source-Software veröffentlicht wurde, stellten unzählige Hobbyentwickler:innen eigene Stable-Diffusion-Projekte auf die Beine. Mit DiffusionCraft kommt ein weiteres Projekt hinzu, das insbesondere bei Reddit gut ankommt.
Bildgenerierung fast in Echtzeit
Reddit-User Sean Simon aka "Lozmosis" teilte ein Video, in dem Minecraft-Bauten und -Szenen durch ein Python-Skript fast in Echtzeit in KI-Bilder umgewandelt werden. Derzeit benötige sein mit einer RTX 3080 ausgestatteter Rechner rund drei bis vier Sekunden pro Frame.
Eine Umsetzung in Echtzeit sei nur eine Frage der Hardware, schreibt Simon. Die Generierung eines neuen Bildes laufe in einem festgelegten Intervall oder immer dann ab, wenn ein Spieler einen Block setzt oder entfernt.
Der Entwickler erklärt den Generierungsprozess so:
- Ein Skript erfasst Bilder aus dem Minecraft-Fenster, verkleinert oder beschneidet sie auf 512 x 512 Pixel und speichert sie in einem Ordner ab.
- InvokeAI wurde so modifiziert, dass es in einer Schleife läuft, das letzte Bild im Ordner anvisiert und das Stable-Diffusion-Bild ausgibt.
- Ein weiteres Skript zeigt das neueste Bild im Stable-Diffusion-Ordner über tkinter an.
Minecraft wird zum Multiplayer-Prompt
Während die KI-Bild-Community insgesamt stark von der Kollaboration lebt, ist die eigentliche Eingabe eines Prompts nur ein "Single-Player-Erlebnis". Mit DiffusionCraft können mehrere Personen gleichzeitig an einem KI-Bild mitwirken, indem sie gemeinsam die Minecraft-Szene bauen, die dann als Vorlage für die Bildgenerierung dient. Simons Skript läuft auf einem lokalen Server.
Die Reaktionen auf das Projekt sind durchweg positiv, was unter anderem an den mehr als 1000 Upvotes auf dem entsprechenden Reddit-Thread ersichtlich ist. Seinen Code hat Simon noch nicht veröffentlicht, Updates gibt es auf seinem Twitter-Account.
Eine große Herausforderung besteht laut Simon darin, dass das derzeitige img2img-Modell nur eine einzige Eingabeaufforderung akzeptiere. Deshalb seien für die Definition bestimmter Funktionen mehrere Computer erforderlich, auf denen Stable Diffusion mit demselben Bild mit separaten Eingabeaufforderungen ausgeführt wird. Schließlich brauche es eine abschließende Phase, in der diese Bilder wieder zusammengefügt würden.
Bald auch Minecraft-Welten aus KI-Bildern?
Die Verwandlung von Minecraft-Szenen zu Stable-Diffusion-Bildern ist bereits beeindruckend - wie weit sind wir davon entfernt, diese Reihenfolge umzukehren?
Diese Frage stellte auch ein Reddit-Account: "Ich wäre wirklich beeindruckt, wenn wir den Prozess umkehren und Kunst in Minecraft verwandeln könnten." DiffusionCraft-Entwickler Simon entgegnet: "Ich habe begonnen, etwas in die Wege zu leiten ..."