Gemini Co-Lead nimmt Stellung zu Kritik an inszeniertem Multimodal-Demo-Video

Update

Stellungnahme und Videodemo von Gemini Co-Lead Oriol Vinyals ergänzt.

Update vom 9. Dezember 2023:

Der Co-Leiter von Gemini, Oriol Vinyals, nimmt zu der Kritik an Googles inszenierter Gemini-Demo auf X Stellung und erklärte, dass "alle Benutzereingaben und -ausgaben in dem Video echt sind, aber der Kürze halber vereinfacht wurden".

Das kritisierte inszenierte Video sollte zeigen, "wie multimodale Benutzererfahrungen mit Gemini aussehen könnten", und wurde laut Vinyals "zur Inspiration von Entwicklern" erstellt.

Er nahm sich die Zeit, die Entwicklungsumgebung zu demonstrieren, in der er mit einer Kombination aus Bildern und Prompts eine KI-Ausgabe erzeugt, die der von Google im Demo-Video gezeigten ähnlich ist.

Video: Oriol Vinyals via X

Das ist zwar keine Echtzeit-Videoanalyse in Kombination mit Sprache, wie sie von Google in dem Video unten gezeigt wird. Aber es zeigt, dass die grundlegenden Fähigkeiten für einen solchen Anwendungsfall in Gemini Pro und Ultra enthalten sind - was nicht überraschend ist, da wir diese Fähigkeiten bereits von GPT-4 Vision kennen.

Ursprünglicher Artikel vom 8. Dezember 2023:

Gefakte Google Gemini-Demo: Ententäuschung sorgt für Enttäuschung

Ein inszeniertes Demovideo lässt Entwickler und Mitarbeitende an den wahren Fähigkeiten von Googles neuem Sprachmodell Gemini zweifeln.

In dem Video mit dem Titel "Hands-on with Gemini: Interacting with multimodal AI" präsentiert Google beeindruckende Sprachinteraktionen und visuelle Echtzeit-Reaktionsfähigkeiten des KI-Modells.

Empfehlung

KI in der Praxis

AI Mode, Agenten, Vision: Google treibt den Umbau der Suche mit KI voran

Nach der Vorführung stellte sich jedoch heraus, dass die Sprachinteraktion nicht existierte und die Vorführung nicht in Echtzeit stattfand. In der Video-Beschreibung sagt Google: "Für die Zwecke dieser Demo wurde die Latenzzeit reduziert und die Gemini-Ausgaben wurden der Prägnanz halber gekürzt." Aber das ist nicht alles: Google verwendete Standbilder aus dem Video mit gezielten Textaufforderungen, um die Ergebnisse zu erhalten.

Laut Bloomberg räumt Google ein, dass die tatsächliche Demonstration die Verwendung von Standbildern aus dem Video und Textaufforderungen beinhaltete, anstatt dass Gemini Änderungen in Echtzeit vorhersagte oder darauf reagierte. Ein Making-of des Videos zeigt Google in seinem Entwickler-Blog.

Interne Kritik an Gemini Fake-Demo

Quellen von Bloomberg und The Information zufolge haben Google-Mitarbeitende intern Bedenken und Kritik an dem Demovideo geäußert. Ein Google-Mitarbeiter erklärte, das Video zeichne ein unrealistisches Bild davon, wie einfach es sei, mit Gemini beeindruckende Ergebnisse zu erzielen.

Die inszenierte Demo sei auch zum Gegenstand von Memes und Witzen innerhalb des Unternehmens geworden, wobei die Mitarbeitenden Bilder und Kommentare teilten, die sich über die Diskrepanzen zwischen dem Video und dem tatsächlichen KI-System lustig machten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der Kontroverse um das Demovideo betont Google, dass alle im Video gezeigten Nutzereingaben und -ausgaben echt sind, auch wenn das Video eine Echtzeit-Implementierung suggeriert, die es bisher nicht gibt.

Eli Collins, Vice President of Products bei Google DeepMind, erklärte gegenüber Bloomberg, dass sich die Entenzeichnungsdemo noch im Forschungsstadium befinde und bisher nicht in Googles realen Produkten zu finden sei.

"Das ist eine neue Ära für uns", sagt Collins. "Wir betreten Neuland in der Forschung. V1 ist erst der Anfang."

Google trickste auch bei der Veröffentlichung der Benchmark-Ergebnisse. Es verglich einen Spitzenwert im renommierten Sprachverständnis-Benchmark MMLU mit einer komplexeren Prompting-Methode (CoT@32) mit der von OpenAI getesteten Standard-Benchmark-Methode mit GPT-4 (5-shot). Gemini Ultra schneidet im MMLU mit dem 5-Shot-Prompt schlechter ab als mit GPT-4.

Obwohl Gemini die beste Punktzahl im MMLU erreicht hat, ist die Art der Darstellung fragwürdig. Es zeigt, wie auch das gefälschte Echtzeitvideo, dass Google um jeden Preis versucht hat, Gemini als GPT-4 überlegen darzustellen, anstatt nur als gleichwertig.

Gemini Co-Lead nimmt Stellung zu Kritik an inszeniertem Multimodal-Demo-Video

Gefakte Google Gemini-Demo: Ententäuschung sorgt für Enttäuschung

AI Mode, Agenten, Vision: Google treibt den Umbau der Suche mit KI voran

Interne Kritik an Gemini Fake-Demo

Google Firebase Studio bekommt drei KI-Modi für autonomeres Programmieren

Google startet Bild-zu-Video-Funktion für Veo 3 in Gemini

Amazon sichert sich Inhalte von Condé Nast und Hearst für Shopping-KI-Bot Rufus

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Gemini Co-Lead nimmt Stellung zu Kritik an inszeniertem Multimodal-Demo-Video

Gefakte Google Gemini-Demo: Ententäuschung sorgt für Enttäuschung

Interne Kritik an Gemini Fake-Demo

Artikel teilen

Bankverbindung