Inhalt
summary Zusammenfassung

STEVE-1 ist ein generatives KI-Modell, das Aufgaben in Minecraft anhand von Textanweisungen ausführen kann.

KI-Modelle, die auf natürliche Sprachanweisungen reagieren können, sind seit ChatGPT in aller Munde. Trotz dieser beeindruckenden Fähigkeiten bleibt es jedoch eine Herausforderung, Modelle zu entwickeln, die Anweisungen für komplexe sequentielle Aufgaben, beispielsweise in der Robotik, befolgen können. Forschende haben nun STEVE-1 vorgestellt, einen KI-Assistenten, der einer Vielzahl von kurzen Text- und Bildanweisungen in Minecraft folgen kann.

STEVE-1 basiert auf zwei bestehenden KI-Modellen - VPT, einem Foundation-Modell von OpenAI, das mit 70.000 Stunden Minecraft-Gameplay vortrainiert wurde, und MineCLIP, das textbasierte Bildunterschriften mit Minecraft-Videos vergleicht. Mit einem Ansatz, der sich an die unCLIP-Methode von DALL-E 2 anlehnt, haben die Forscher VPT so angepasst, dass es visuelle Ziele verfolgt, die von MineCLIP kodiert werden, und dann ein Modul trainiert, das Textaufforderungen in visuelle MineCLIP-Embeddings übersetzt.

Bild: Lifshitz, Paster et al.

Dieses zweistufige Modell ermöglicht es STEVE-1, textuellen und visuellen Anweisungen in Minecraft zu folgen, und das für nur 60 US-Dollar an Rechenleistung und mit nur 2.000 beschrifteten Beispielen.

Anzeige
Anzeige

STEVE-1 übertrifft bisherige KI-Agenten in Minecraft

STEVE-1 schnitt in den Tests deutlich besser ab als frühere KI-Agenten in Minecraft, etwa wenn es darum ging, relevante Anweisungen zu befolgen, Ressourcen zu sammeln und zu erkunden. Außerdem kann er eine Reihe von kurzfristigen Aufgaben erledigen, etwa Bäume fällen, Ressourcen sammeln und erkunden, wenn er durch Text oder Bilder dazu aufgefordert wird.

Die Forscher stellten fest, dass sich die Leistung bei längerfristigen Aufgaben wie der Herstellung von Gegenständen oder dem Bau von Strukturen durch das Aneinanderreihen von Prompts von nahezu null auf eine Erfolgsquote von 50 bis 70 Prozent verbesserte. Das Team zeigte auch, dass STEVE-1 in Echtzeit auf menschliche Anweisungen reagiert und damit sein Potenzial als interaktiver Assistent unter Beweis stellt.

STEVE-1 ist ein Bauplan für "anleitbare Agenten in Bereichen jenseits von Minecraft"

Obwohl, ähnlich wie bei der Bilderzeugung, der Wechsel zu längeren und präziseren Prompts die Leistung von STEVE-1 bei langfristigen Aufgaben dramatisch verbessert, sei dies ebenso unintuitiv und zeitaufwendig wie das Prompt-Engineering in anderen Bereichen.

Da STEVE-1 direkt mit rohen Pixeleingaben und einfachen Maus- und Tastaturaktionen agiert, könnte der Ansatz nach Ansicht des Teams anleitbare Agenten in Bereichen jenseits von Minecraft ermöglichen. Zukünftig will das Team die Fähigkeit von STEVE-1 verbessern, längere und komplexere Prompts zu verarbeiten und große Sprachmodelle verwendet, um den Agenten bei der Planung und Ausführung mehrstufiger Aufgaben zu unterstützen.

Mehr Informationen und den Code gibt es auf der STEVE-1-Projektseite.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • STEVE-1 ist ein generatives KI-Modell, das Aufgaben in Minecraft mithilfe von Textanweisungen ausführen kann. Es basiert auf zwei bestehenden KI-Modellen (VPT und MineCLIP) und übertrifft bestehende KI-Agenten bei kurzfristigen Aufgaben.
  • Durch die Verkettung von Textbefehlen zeigt STEVE-1 eine verbesserte Leistung bei längerfristigen Aufgaben und demonstriert damit sein Potenzial als interaktiver Assistent in Echtzeit.
  • Der Ansatz, der für STEVE-1 verwendet wurde, kann auch für die Erstellung von Agenten verwendet werden, die über Minecraft hinaus Anweisungen geben können. Zukünftige Arbeiten werden sich darauf konzentrieren, die Fähigkeit der KI zu verbessern, längere und komplexere Anweisungen zu verarbeiten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!