Google Deepmind hat Gemini Robotics-ER 1.6 vorgestellt, eine verbesserte Version seines Modells für verkörpertes Denken in Robotern. Es fungiert als übergeordnete Denkebene, die Robotern hilft, ihre Umgebung präziser zu erfassen und Aufgaben eigenständig zu planen, und ruft bei Bedarf Werkzeuge wie Google Search oder Vision-Language-Action-Modelle auf. Laut Deepmind übertrifft die neue Version sowohl Gemini Robotics-ER 1.5 als auch Gemini 3.0 Flash, etwa beim Zeigen auf Objekte, Zählen und Erkennen erfolgreicher Aufgabenausführung.
Deutlich verbessert ist das Ablesen von Messinstrumenten wie Druckanzeigen oder Schaugläsern, das in Zusammenarbeit mit Boston Dynamics entwickelt wurde. Deren Roboter Spot nutzt die Funktion zur Anlageninspektion. Für hohe Genauigkeit kombiniert das Modell agentische Bildverarbeitung mit Code-Ausführung: Es zoomt zunächst in ein Bild hinein, um kleine Details einer Anzeige besser zu erfassen, nutzt dann Zeigefunktionen und Code, um Proportionen und Skalenabstände zu berechnen, und wendet schließlich Weltwissen an, um die Bedeutung des Messwerts zu interpretieren.
Das Modell ist ab sofort über die Gemini-API und Google AI Studio verfügbar, ergänzt durch ein Colab-Beispiel für Entwickler.

