Nvidia hat ein neues Grundlagenmodell für Gaming-Agenten veröffentlicht. NitroGen ist ein offenes Vision-Action-Modell, das auf 40.000 Stunden Gameplay-Videos von mehr als 1.000 Spielen trainiert wurde. Die Forscher nutzten eine bisher kaum erschlossene Ressource: YouTube- und Twitch-Videos mit sichtbaren Controller-Overlays. Mit Template-Matching und einem feinabgestimmten SegFormer-Modell extrahierten sie daraus die Spieler-Eingaben.
NitroGen basiert auf dem Robotik-Modell GR00T N1.5 und ist laut den Forschern das erste Modell, das zeigt, dass Robotik-Grundlagenmodelle als universelle Agenten in virtuellen Umgebungen mit unterschiedlicher Physik und Grafik funktionieren können. Das Modell beherrscht verschiedene Genres: Action-RPGs, Plattformer, Roguelikes und mehr. Bei unbekannten Spielen erreicht es bis zu 52 Prozent bessere Erfolgsraten als Modelle, die von Grund auf trainiert werden.
Die Forscher von Nvidia, Stanford, Caltech und anderen Universitäten haben den Datensatz, die Modellgewichte, das Paper und den Code öffentlich zugänglich gemacht.