Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16
Update
  • Stellungnahme und Videodemo von Gemini Co-Lead Oriol Vinyals ergänzt.

Update vom 9. Dezember 2023:

Der Co-Leiter von Gemini, Oriol Vinyals, nimmt zu der Kritik an Googles inszenierter Gemini-Demo auf X Stellung und erklärte, dass "alle Benutzereingaben und -ausgaben in dem Video echt sind, aber der Kürze halber vereinfacht wurden".

Das kritisierte inszenierte Video sollte zeigen, "wie multimodale Benutzererfahrungen mit Gemini aussehen könnten", und wurde laut Vinyals "zur Inspiration von Entwicklern" erstellt.

Er nahm sich die Zeit, die Entwicklungsumgebung zu demonstrieren, in der er mit einer Kombination aus Bildern und Prompts eine KI-Ausgabe erzeugt, die der von Google im Demo-Video gezeigten ähnlich ist.

Anzeige
Anzeige

Video: Oriol Vinyals via X

Das ist zwar keine Echtzeit-Videoanalyse in Kombination mit Sprache, wie sie von Google in dem Video unten gezeigt wird. Aber es zeigt, dass die grundlegenden Fähigkeiten für einen solchen Anwendungsfall in Gemini Pro und Ultra enthalten sind - was nicht überraschend ist, da wir diese Fähigkeiten bereits von GPT-4 Vision kennen.

Ursprünglicher Artikel vom 8. Dezember 2023:

Gefakte Google Gemini-Demo: Ententäuschung sorgt für Enttäuschung

Ein inszeniertes Demovideo lässt Entwickler und Mitarbeitende an den wahren Fähigkeiten von Googles neuem Sprachmodell Gemini zweifeln.

In dem Video mit dem Titel "Hands-on with Gemini: Interacting with multimodal AI" präsentiert Google beeindruckende Sprachinteraktionen und visuelle Echtzeit-Reaktionsfähigkeiten des KI-Modells.

Empfehlung

Nach der Vorführung stellte sich jedoch heraus, dass die Sprachinteraktion nicht existierte und die Vorführung nicht in Echtzeit stattfand. In der Video-Beschreibung sagt Google: "Für die Zwecke dieser Demo wurde die Latenzzeit reduziert und die Gemini-Ausgaben wurden der Prägnanz halber gekürzt." Aber das ist nicht alles: Google verwendete Standbilder aus dem Video mit gezielten Textaufforderungen, um die Ergebnisse zu erhalten.

Laut Bloomberg räumt Google ein, dass die tatsächliche Demonstration die Verwendung von Standbildern aus dem Video und Textaufforderungen beinhaltete, anstatt dass Gemini Änderungen in Echtzeit vorhersagte oder darauf reagierte. Ein Making-of des Videos zeigt Google in seinem Entwickler-Blog.

Interne Kritik an Gemini Fake-Demo

Quellen von Bloomberg und The Information zufolge haben Google-Mitarbeitende intern Bedenken und Kritik an dem Demovideo geäußert. Ein Google-Mitarbeiter erklärte, das Video zeichne ein unrealistisches Bild davon, wie einfach es sei, mit Gemini beeindruckende Ergebnisse zu erzielen.

Die inszenierte Demo sei auch zum Gegenstand von Memes und Witzen innerhalb des Unternehmens geworden, wobei die Mitarbeitenden Bilder und Kommentare teilten, die sich über die Diskrepanzen zwischen dem Video und dem tatsächlichen KI-System lustig machten.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der Kontroverse um das Demovideo betont Google, dass alle im Video gezeigten Nutzereingaben und -ausgaben echt sind, auch wenn das Video eine Echtzeit-Implementierung suggeriert, die es bisher nicht gibt.

Eli Collins, Vice President of Products bei Google DeepMind, erklärte gegenüber Bloomberg, dass sich die Entenzeichnungsdemo noch im Forschungsstadium befinde und bisher nicht in Googles realen Produkten zu finden sei.

"Das ist eine neue Ära für uns", sagt Collins. "Wir betreten Neuland in der Forschung. V1 ist erst der Anfang."

Google trickste auch bei der Veröffentlichung der Benchmark-Ergebnisse. Es verglich einen Spitzenwert im renommierten Sprachverständnis-Benchmark MMLU mit einer komplexeren Prompting-Methode (CoT@32) mit der von OpenAI getesteten Standard-Benchmark-Methode mit GPT-4 (5-shot). Gemini Ultra schneidet im MMLU mit dem 5-Shot-Prompt schlechter ab als mit GPT-4.

Obwohl Gemini die beste Punktzahl im MMLU erreicht hat, ist die Art der Darstellung fragwürdig. Es zeigt, wie auch das gefälschte Echtzeitvideo, dass Google um jeden Preis versucht hat, Gemini als GPT-4 überlegen darzustellen, anstatt nur als gleichwertig.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Demovideo von Googles neuem Sprachmodell Gemini vermittelt den Eindruck beeindruckender Sprachinteraktionen und Echtzeitreaktionsfähigkeiten, stellt sich jedoch als inszeniert heraus.
  • Google gibt zu, dass das Video Standbilder und gezielte Textprompts verwendet, anstatt Echtzeitinteraktionen zu zeigen, was intern zu Kritik und Besorgnis unter den Mitarbeitenden geführt hat.
  • Trotz der Kontroverse betont Google, dass die gezeigten Benutzereingaben und -ausgaben echt sind, obwohl sie nicht auf gesprochener Sprache basieren und nicht in Echtzeit erfolgen. Die Technologie befinde sich noch in der Forschungsphase.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!