- Stellungnahme und Videodemo von Gemini Co-Lead Oriol Vinyals ergänzt.
Update vom 9. Dezember 2023:
Der Co-Leiter von Gemini, Oriol Vinyals, nimmt zu der Kritik an Googles inszenierter Gemini-Demo auf X Stellung und erklärte, dass "alle Benutzereingaben und -ausgaben in dem Video echt sind, aber der Kürze halber vereinfacht wurden".
Das kritisierte inszenierte Video sollte zeigen, "wie multimodale Benutzererfahrungen mit Gemini aussehen könnten", und wurde laut Vinyals "zur Inspiration von Entwicklern" erstellt.
Er nahm sich die Zeit, die Entwicklungsumgebung zu demonstrieren, in der er mit einer Kombination aus Bildern und Prompts eine KI-Ausgabe erzeugt, die der von Google im Demo-Video gezeigten ähnlich ist.
Das ist zwar keine Echtzeit-Videoanalyse in Kombination mit Sprache, wie sie von Google in dem Video unten gezeigt wird. Aber es zeigt, dass die grundlegenden Fähigkeiten für einen solchen Anwendungsfall in Gemini Pro und Ultra enthalten sind - was nicht überraschend ist, da wir diese Fähigkeiten bereits von GPT-4 Vision kennen.
Ursprünglicher Artikel vom 8. Dezember 2023:
Gefakte Google Gemini-Demo: Ententäuschung sorgt für Enttäuschung
Ein inszeniertes Demovideo lässt Entwickler und Mitarbeitende an den wahren Fähigkeiten von Googles neuem Sprachmodell Gemini zweifeln.
In dem Video mit dem Titel "Hands-on with Gemini: Interacting with multimodal AI" präsentiert Google beeindruckende Sprachinteraktionen und visuelle Echtzeit-Reaktionsfähigkeiten des KI-Modells.
Nach der Vorführung stellte sich jedoch heraus, dass die Sprachinteraktion nicht existierte und die Vorführung nicht in Echtzeit stattfand. In der Video-Beschreibung sagt Google: "Für die Zwecke dieser Demo wurde die Latenzzeit reduziert und die Gemini-Ausgaben wurden der Prägnanz halber gekürzt." Aber das ist nicht alles: Google verwendete Standbilder aus dem Video mit gezielten Textaufforderungen, um die Ergebnisse zu erhalten.
Laut Bloomberg räumt Google ein, dass die tatsächliche Demonstration die Verwendung von Standbildern aus dem Video und Textaufforderungen beinhaltete, anstatt dass Gemini Änderungen in Echtzeit vorhersagte oder darauf reagierte. Ein Making-of des Videos zeigt Google in seinem Entwickler-Blog.
Interne Kritik an Gemini Fake-Demo
Quellen von Bloomberg und The Information zufolge haben Google-Mitarbeitende intern Bedenken und Kritik an dem Demovideo geäußert. Ein Google-Mitarbeiter erklärte, das Video zeichne ein unrealistisches Bild davon, wie einfach es sei, mit Gemini beeindruckende Ergebnisse zu erzielen.
Die inszenierte Demo sei auch zum Gegenstand von Memes und Witzen innerhalb des Unternehmens geworden, wobei die Mitarbeitenden Bilder und Kommentare teilten, die sich über die Diskrepanzen zwischen dem Video und dem tatsächlichen KI-System lustig machten.
Trotz der Kontroverse um das Demovideo betont Google, dass alle im Video gezeigten Nutzereingaben und -ausgaben echt sind, auch wenn das Video eine Echtzeit-Implementierung suggeriert, die es bisher nicht gibt.
Eli Collins, Vice President of Products bei Google DeepMind, erklärte gegenüber Bloomberg, dass sich die Entenzeichnungsdemo noch im Forschungsstadium befinde und bisher nicht in Googles realen Produkten zu finden sei.
"Das ist eine neue Ära für uns", sagt Collins. "Wir betreten Neuland in der Forschung. V1 ist erst der Anfang."
Google trickste auch bei der Veröffentlichung der Benchmark-Ergebnisse. Es verglich einen Spitzenwert im renommierten Sprachverständnis-Benchmark MMLU mit einer komplexeren Prompting-Methode (CoT@32) mit der von OpenAI getesteten Standard-Benchmark-Methode mit GPT-4 (5-shot). Gemini Ultra schneidet im MMLU mit dem 5-Shot-Prompt schlechter ab als mit GPT-4.
Obwohl Gemini die beste Punktzahl im MMLU erreicht hat, ist die Art der Darstellung fragwürdig. Es zeigt, wie auch das gefälschte Echtzeitvideo, dass Google um jeden Preis versucht hat, Gemini als GPT-4 überlegen darzustellen, anstatt nur als gleichwertig.