Inhalt
summary Zusammenfassung

YouTube-Fail-Videos entlarven eine Schwäche führender KI-Systeme. Die Modelle fallen auf unerwartete Wendungen herein und können nicht umdenken. Selbst GPT-4o versagt bei simplen Überraschungen.

Anzeige

Die Wissenschaftler:innen der University of British Columbia, dem kanadischen Vector Institute for AI und der singapurischen Nanyang Technological University haben führende KI-Modelle mit mehr als 1.600 YouTube-Fail-Videos aus dem Oops!-Dataset getestet.

Der Benchmark BlackSwanSuite zeigt: Die Systeme fallen regelmäßig auf die gleichen "Tricks" herein, die auch Menschen überraschen, nur dass die KI anschließend nicht umdenken kann.

Ein typisches Beispiel: Ein Mann schwingt ein Kissen in Richtung Weihnachtsbaum. Die KI vermutet, er wolle eine andere Person treffen. Tatsächlich fliegen aber Christbaumkugeln durch die Luft und treffen eine Frau. Selbst nachdem die KI das komplette Video gesehen hat, beharrt sie auf ihrer ursprünglichen falschen Vermutung.

Anzeige
Anzeige

Die Videos stammen aus verschiedenen "Fail"-Kategorien, zum größten Teil sind es Verkehrsunfälle (24 Prozent), Kinder-Missgeschicke (24 Prozent) oder Pool-Pannen (16 Prozent). Gemeinsam haben sie alle eine unerwartete Wendung, die in der Regel selbst Menschen nicht vorhersehen können.

Jedes Video wird für den Benchmark in drei Teile zerlegt: das Set-up, das überraschende Ereignis und die Folgen. Die KI muss dann verschiedene Aufgaben lösen.

Tests mit drei verschiedenen Aufgaben

Bei "Forecaster" sieht die KI nur den Anfang und soll vorhersagen, was passiert. "Detective" zeigt Anfang und Ende, die KI muss die überraschende Wendung dazwischen erklären. "Reporter" zeigt alles und testet, ob die KI ihre ursprünglichen Vermutungen korrigieren kann.

Diagramm der Videotasks Forecaster, Detective und Reporter mit Pre-, Main- und Post-Event-Phasen und verdeckten Videosegmenten
Der Benchmark umfasst 15.469 Fragen über drei Videotasks. | Bild: Chinchure et al.

Die Forschenden testeten sowohl geschlossene Modelle wie GPT-4o und Gemini 1.5 Pro als auch Open-Source-Systeme wie LLaVA-Video, VILA, VideoChat2 und VideoLLaMA 2.

Die Testergebnisse zeigen dramatische Schwächen. Bei der Detective-Aufgabe erreichte GPT-4o nur 65 Prozent richtige Antworten. Menschen schafften 90 Prozent.

Empfehlung
Tabelle mit MCQ- und Ja/Nein-Werten für Detective- und Reporter-Aufgaben von GPT-4o, Gemini, Open-Source-Modellen und Mensch
Die Tabelle vergleicht geschlossene und offene Modelle sowie menschliche Benchmarks in Multiple-Choice- (MCQ) und Ja/Nein-Varianten (Y/N) der Detective- und Reporter-Aufgaben. | Bild: Chinchure et al.

Noch schlechter wurde es beim "Umdenken": Wenn die KI ihre ursprünglichen Vermutungen anhand des kompletten Videos überprüfen sollte, lag GPT-4o mit 60 Prozent ganze 32 Prozentpunkte hinter Menschen (92 Prozent). Die Modelle halten stur an ihren ersten Eindrücken fest, auch wenn das Video das Gegenteil beweist.

Andere Modelle wie Gemini 1.5 Pro und LLaVA-Video zeigten ähnliche Probleme. Besonders bei den trickreichen Videos, die selbst Menschen erst beim zweiten Hinsehen verstehen, fiel die KI-Leistung der Untersuchung zufolge drastisch ab.

Müllwagen lassen keine Bäume fallen

Das Problem liegt in der Art, wie KI-Modelle trainiert werden. Sie lernen Muster aus Millionen von Videos und erwarten, dass sich diese Muster wiederholen. Ein Müllwagen hebt normalerweise Müll auf, aber dass er dabei einen Baum fallen lässt, passt nicht ins gelernte Schema.

Screenshot mit Sequenzbildern (V_pre, V_main, V_post), Frage und GPT-4o-Reasoning, das fälschlich Option A statt korrekter B auswählt.
GPT-4o folgt in seinen Kettenschritten voreiligen Annahmen und entscheidet sich für die falsche Option A. | Bild: Chinchure et al.

Die Forschenden testeten, wo genau das Problem liegt. Sie ersetzten die KI-Wahrnehmung durch menschlich geschriebene Beschreibungen der Video-Inhalte. Dadurch verbesserte sich die Leistung von LLaVA-Video um 6,4 Prozent. Mit zusätzlichen Verständnishilfen kamen weitere 3,6 Prozent dazu, insgesamt 10 Prozent Verbesserung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das Paradoxe ist, dass diese Verbesserung die Schwäche der KI beweist. Wenn die Systeme erst dann richtig funktionieren, wenn Menschen ihnen die Wahrnehmungsarbeit abnehmen, dann scheitern sie bereits beim Sehen und Verstehen, noch bevor das eigentliche Denken beginnt.

Menschen dagegen seien Meister im Umdenken. Sie können ihre Vermutungen schnell anpassen, wenn neue Informationen auftauchen. Diese Flexibilität fehle aktuellen KI-Modellen.

Reale Welt voller Unversehbarkeiten

Die Fail-Video-Schwäche könnte ernste Konsequenzen für selbstfahrende Autos und andere autonome Systeme haben. In der realen Welt passieren schließlich ständig unerwartete Dinge: Kinder rennen auf die Straße, Gegenstände fallen von Lastwagen, andere Fahrer:innen verhalten sich unvorhersagbar.

Die Forschenden stellen ihren Benchmark auf Github und Hugging Face öffentlich zur Verfügung. Sie hoffen, dass andere Entwickler:innen damit ihre KI-Systeme testen und verbessern. Solange die Modelle sich von simplen Fail-Videos in die Irre führen lassen, seien sie für die echte Welt nicht bereit.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben führende KI-Modelle wie GPT-4o, Gemini 1.5 Pro und verschiedene Open-Source-Systeme mit mehr als 1.600 YouTube-Fail-Videos getestet und festgestellt, dass die Systeme bei unerwarteten Wendungen immer wieder an ihren ersten Annahmen festhalten und nicht umdenken können.
  • Im direkten Vergleich mit Menschen schnitten die Modelle deutlich schlechter ab: Bei der Aufgabe, überraschende Ereignisse im Video zu erklären, erreichte GPT-4o nur 65 Prozent richtige Antworten, während Menschen auf 90 Prozent kamen.
  • Die Untersuchungen zeigen, dass aktuelle KI-Modelle vor allem beim Verstehen und Interpretieren unerwarteter Situationen an ihre Grenzen stoßen – eine Schwäche, die laut den Forschenden erhebliche Risiken für autonome Systeme wie selbstfahrende Autos bedeuten könnte.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!