Das Start-up tldraw hat mit "computer" eine neue, auf natürlicher Sprache basierende Anwendung entwickelt. Nutzer:innen können damit Workflows aus Blöcken von Text, Bildern und Anweisungen erstellen und so die Möglichkeiten generativer KI erkunden.
Das Startup tldraw hat eine experimentelle Anwendung namens "computer" vorgestellt, die eine neuartige Form der Interaktion mit generativer KI ermöglichen soll. Laut tldraw-Gründer Steve Ruiz soll "computer" die Leistungsfähigkeit des Infinite-Canvas-SDK von tldraw nutzen, um eine dynamische Umgebung für die Arbeit mit KI-Modellen zu schaffen.
"computer" besteht aus mehreren Komponenten, die Elemente auf der Leinwand wie Textfelder, Bilder oder Audioclips darstellen. Diese Komponenten sind durch Pfeile miteinander verbunden, die den Datenfluss und die Transformationen visualisieren.
Jede Komponente verfügt über zugehörige Prozeduren - Anweisungen, die auf der Grundlage von Eingaben verbundener Komponenten ausgeführt werden. Eine Komponente kann Daten von einer beliebigen Anzahl anderer Komponenten akzeptieren und ihre Ausgabedaten an viele andere Komponenten weitergeben - einschließlich sich selbst.
Wird "computer" ausgeführt, fließen Informationen von einer Komponente zur nächsten, wobei die Ausgabe jeder Generierung als Eingabe für die nächste dient. So entstehen Prozesse, die sich verzweigen, schleifen und iterieren.
Geben Nutzer:innen beispielsweise in eine "Anweisungs"-Komponente "Schreibe einen kurzen Werbespot" ein, generiert die Komponente innerhalb weniger Sekunden ein wiederverwendbares JSON-Skript.
Dieses kann jede Kombination von Eingaben in ein Werbeskript verwandeln. Es wird dann zusammen mit den aktuellen Eingaben verwendet, um eine zweite Aufforderung an das Sprachmodell für die endgültige Ausgabe zu erstellen.
Diese Ausgabe kann zur Anzeige an eine verknüpfte "Text"-Komponente sowie an andere Komponenten weitergegeben werden, etwa für Sprachsynthese oder Bildgenerierung.
Die zugrundeliegenden Sprachmodelle können laut tldraw sogar Prozeduren dynamisch generieren. Wenn ein Nutzer "Erstelle eine Marketingkampagne basierend auf dieser Produktbeschreibung" eingibt, erzeugt das System eigenständig die erforderlichen Schritte und Komponenten. So entsteht basierend auf der übergeordneten Anfrage des Nutzers ein kompletter Arbeitsablauf.
Gemini 2.0 Flash als Grundlage
"computer" ist per API an Googles neustes Modell Gemini 2.0 Flash angeschlossen, das sich ebenfalls noch in einer experimentellen Phase befindet.
Laut tldraw war die Entscheidung für Gemini primär von der Geschwindigkeit und Flexibilität der Schnittstelle getrieben. Die API ermögliche es, Workflows mit einer Vielzahl von Eingabetypen wie Text, Bildern und strukturierten Daten zu erstellen. Auch die Ausgaben seien dank eines einheitlichen JSON-Formats einfach weiterzuverarbeiten.
Vision eines visuellen Programmierens mit natürlicher Sprache
Ruiz sieht in "computer" einen ersten Schritt in Richtung eines visuellen Programmierparadigmas, das natürliche Sprache als Schnittstelle nutzt. Anwender:innen sollen komplexe Prozesse gestalten können, ohne eine Programmiersprache beherrschen zu müssen.
Durch die Kombination aus visueller Komposition und leistungsstarker generativer KI will tldraw neue Möglichkeiten erschließen, Ideen auszudrücken und Probleme zu lösen.
Dabei sollen sowohl professionelle Anwender:innen als auch Einsteiger:innen angesprochen werden. tldraw stellt eine Reihe von Tutorial- sowie Beispielprojekten bereit, mit denen sich etwa Dinge berechnen, Rezepte generieren oder Bilder analysieren lassen. Projekte lassen sich als Template speichern und per Link mit anderen teilen.
Aktuell handelt es sich bei "computer" noch um ein experimentelles Projekt. tldraw plant jedoch, das Konzept auf Basis des Nutzer:innenfeedbacks weiterzuentwickeln.
tldraw hat bereits 2023 mit tldraw "Make Real" ein spannendes KI-Tool vorgestellt, das Entwickler:innen dabei helfen soll, Software zu "zeichnen", sprich visuell zu gestalten, statt zu programmieren. Auf dieser Basis baut tldraws neustes "computer"-Experiment auf.
Die Bedienung von Computern durch natürliche Sprache dürfte 2025 noch große Fortschritte machen. Dafür haben Unternehmen wie Anthropic mit Claude Computer Use, Google durch Project Jarvis oder Apple mit Apple Intelligence bereits die Grundsteine gelegt.