STEVE-1 ist ein generatives KI-Modell, das Aufgaben in Minecraft anhand von Textanweisungen ausführen kann.
KI-Modelle, die auf natürliche Sprachanweisungen reagieren können, sind seit ChatGPT in aller Munde. Trotz dieser beeindruckenden Fähigkeiten bleibt es jedoch eine Herausforderung, Modelle zu entwickeln, die Anweisungen für komplexe sequentielle Aufgaben, beispielsweise in der Robotik, befolgen können. Forschende haben nun STEVE-1 vorgestellt, einen KI-Assistenten, der einer Vielzahl von kurzen Text- und Bildanweisungen in Minecraft folgen kann.
STEVE-1 basiert auf zwei bestehenden KI-Modellen - VPT, einem Foundation-Modell von OpenAI, das mit 70.000 Stunden Minecraft-Gameplay vortrainiert wurde, und MineCLIP, das textbasierte Bildunterschriften mit Minecraft-Videos vergleicht. Mit einem Ansatz, der sich an die unCLIP-Methode von DALL-E 2 anlehnt, haben die Forscher VPT so angepasst, dass es visuelle Ziele verfolgt, die von MineCLIP kodiert werden, und dann ein Modul trainiert, das Textaufforderungen in visuelle MineCLIP-Embeddings übersetzt.
Dieses zweistufige Modell ermöglicht es STEVE-1, textuellen und visuellen Anweisungen in Minecraft zu folgen, und das für nur 60 US-Dollar an Rechenleistung und mit nur 2.000 beschrifteten Beispielen.
STEVE-1 übertrifft bisherige KI-Agenten in Minecraft
STEVE-1 schnitt in den Tests deutlich besser ab als frühere KI-Agenten in Minecraft, etwa wenn es darum ging, relevante Anweisungen zu befolgen, Ressourcen zu sammeln und zu erkunden. Außerdem kann er eine Reihe von kurzfristigen Aufgaben erledigen, etwa Bäume fällen, Ressourcen sammeln und erkunden, wenn er durch Text oder Bilder dazu aufgefordert wird.
Die Forscher stellten fest, dass sich die Leistung bei längerfristigen Aufgaben wie der Herstellung von Gegenständen oder dem Bau von Strukturen durch das Aneinanderreihen von Prompts von nahezu null auf eine Erfolgsquote von 50 bis 70 Prozent verbesserte. Das Team zeigte auch, dass STEVE-1 in Echtzeit auf menschliche Anweisungen reagiert und damit sein Potenzial als interaktiver Assistent unter Beweis stellt.
STEVE-1 ist ein Bauplan für "anleitbare Agenten in Bereichen jenseits von Minecraft"
Obwohl, ähnlich wie bei der Bilderzeugung, der Wechsel zu längeren und präziseren Prompts die Leistung von STEVE-1 bei langfristigen Aufgaben dramatisch verbessert, sei dies ebenso unintuitiv und zeitaufwendig wie das Prompt-Engineering in anderen Bereichen.
Da STEVE-1 direkt mit rohen Pixeleingaben und einfachen Maus- und Tastaturaktionen agiert, könnte der Ansatz nach Ansicht des Teams anleitbare Agenten in Bereichen jenseits von Minecraft ermöglichen. Zukünftig will das Team die Fähigkeit von STEVE-1 verbessern, längere und komplexere Prompts zu verarbeiten und große Sprachmodelle verwendet, um den Agenten bei der Planung und Ausführung mehrstufiger Aufgaben zu unterstützen.
Mehr Informationen und den Code gibt es auf der STEVE-1-Projektseite.