Ein KI-Modell der Carnegie Mellon University verwandelt Text in Lego-Modelle, die nicht nur gut aussehen, sondern auch stehen bleiben.
Mit LegoGPT stellt ein Team der Carnegie Mellon University ein KI-System vor, das aus Textbeschreibungen Lego-Modelle erzeugt. Die Modelle können dabei nicht nur von Menschen, sondern auch automatisiert von Robotern aufgebaut werden.
Grundlage der Methode ist ein autoregressives Sprachmodell, das ähnlich wie bei der Wortvorhersage im Text nun den nächsten Lego-Stein vorhersagt. Die Forscher trainierten das System auf einem eigens entwickelten Datensatz namens StableText2Lego, der über 47.000 stabile Lego-Strukturen umfasst. Die zugehörigen Beschreibungstexte wurden mit GPT-4o auf Grundlage von 3D-Renderings generiert.
Video: Pun, Deng, Liu et al.
Physikbasierte Prüfmechanismen sichern Stabilität
Während der Generierung prüft das Modell jede Platzierung eines Steins auf Kollisionen, ungültige Positionen und physikalische Instabilität. Erkennt das System ein Problem, wird der Entwurf bis zum letzten stabilen Zustand zurückgesetzt – ein Verfahren, das die Autoren als „physics-aware rollback“ bezeichnen. Zusätzlich kommt ein Rejection Sampling zum Einsatz, um ungültige Bausteine gar nicht erst zu akzeptieren.
Die Stabilitätsanalyse basiert auf einem physikalischen Modell, das alle Kräfte berücksichtigt, die auf einen Lego-Stein wirken – einschließlich Druck-, Zug- und Scherkräften. Nur Konstruktionen, die ein statisches Gleichgewicht erreichen, werden akzeptiert.
In einem Vergleich mit aktuellen 3D-Generierungsverfahren wie LLaMA-Mesh, XCube und Hunyuan3D-2 erreicht LegoGPT eine deutlich höhere Erfolgsquote bei der Erzeugung stabiler und gültiger Modelle. Während andere Verfahren teils instabile oder nicht baubare Strukturen erzeugen, liegt LegoGPT mit 98,8 Prozent stabiler Ergebnisse deutlich vorn.
KI-Texturen oder echte Lego-Farben
Ganz ohne Farbe wäre Lego langweilig. Deshalb verpasst LegoGPT seinen Modellen auf Wunsch auch Farbe und Textur. Eine Sofabeschreibung mit „japanischem Shibori-Stoff“ wird zur strukturierten Oberfläche in Indigo, ein „Cyberpunk-Flammenlack“ leuchtet in Neonviolett. Die Texturierung erfolgt per FlashTex, einem schnellen Verfahren zur Text-zu-Mesh-Beschichtung.
Neben UV-Texturen unterstützt LegoGPT aber auch Uniformfärbung mit echten Lego-Farben – damit das Design nicht nur digital, sondern auch im realen Baubeutel funktioniert.
Mehr Informationen und Beispiele gibt es auf der LegoGPT-Projektseite. Auf HuggingFace gibt es eine Demo.