Inhalt
summary Zusammenfassung

Google Deepmind geht davon aus, dass Videomodelle in Zukunft eine ähnliche Schlüsselrolle für das maschinelle Sehen übernehmen könnten, wie es große Sprachmodelle (LLMs) bereits für die Verarbeitung natürlicher Sprache tun.

Anzeige

Statt für jede visuelle Aufgabe – wie Segmentierung, Objekterkennung oder Bildbearbeitung – ein eigenes spezialisiertes Modell zu benötigen, könnten einheitliche Videomodelle viele dieser Aufgaben in einem einzigen System lösen.

So wie LLMs heute Text übersetzen, zusammenfassen oder analysieren können, ohne für jede Aufgabe separat trainiert zu werden, könnten Videomodelle künftig als universelle Grundlage für visuelle Intelligenz dienen.

Googles Videomodell Veo 3 zeigt in einer aktuellen Analyse überraschend vielseitige Zero-Shot-Fähigkeiten in Bildverarbeitung, physikalischer Modellbildung, Bildmanipulation und visuellem Reasoning ohne zusätzliches Training. Die Forscher sehen darin ein frühes Anzeichen für ein „GPT-3-Moment“ des maschinellen Sehens.

Anzeige
Anzeige

Prompt statt Fine-Tuning

Veo 3 wird per Textinstruktion und Eingangsbild angesteuert und erzeugt daraufhin ein achtsekündiges Video in 720p und 24 Bildern pro Sekunde. Anders als klassische Computer-Vision-Modelle kommt es dabei ohne task-spezifisches Training oder zusätzliche Anpassung aus.

Das Modell löst klassische Wahrnehmungsaufgaben wie Kantenerkennung, Segmentierung oder Superresolution. Auch komplexe visuelle Szenarien wie die Dalmatiner-Illusion oder Rorschach-Flecken interpretiert es im Zero-Shot-Modus.

Darauf aufbauend zeigt Veo 3 ein physikalisches Weltverständnis: Es simuliert Auftrieb, Luftwiderstand, Spiegelungen oder Farbmischung korrekt und entfernt in Jenga-artigen Szenen Objekte in physikalisch plausibler Reihenfolge.

Auch Manipulationen sind möglich: Veo 3 entfernt Hintergründe, färbt Objekte um, verändert Perspektiven oder erzeugt neue Ansichten. Dabei bewahrt es oft Details und Texturen besser als spezialisierte Editoren, auch wenn ungewollte Animationen derzeit noch ein Schwachpunkt sind.

Besonders auffällig ist laut Google Deepmind Veo 3s Fähigkeit zum visuellen Reasoning: Es löst Labyrinthe, erkennt Symmetrien, sortiert Zahlen, extrapoliert Regeln oder löst einfache Sudokus – allein auf Basis von Bild und Text. Die Forscher sprechen von „Chain-of-Frames“ – einem visuellen Analogon zum „Chain-of-Thought“ bei Sprachmodellen.

Empfehlung

Promptgestaltung und visuelle Darstellung beeinflussen die Leistung erheblich: Ein grüner Hintergrund verbessert etwa Segmentierungsergebnisse; unterschiedliche Formulierungen führen zu teils drastischen Leistungsunterschieden.

In einigen Aufgaben verwendet die API einen LLM-basierten Prompt-Rewriter. Laut den Forschern stammt bei einzelnen Aufgaben wie Sudoku die Lösung vermutlich vom LLM, nicht vom Videomodell selbst. Tests mit Gemini 2.5 Pro zeigen jedoch, dass zentrale visuelle Aufgaben wie Roboternavigation, Maze-Solving und visuelle Symmetrie allein aus dem Eingangsbild nicht zuverlässig vom LLM gelöst werden. Die Autoren bewerten das System daher als Black Box, doch die Ergebnisse sprechen aus ihrer Sicht für emergente Reasoning-Fähigkeiten im Videomodell.

Generalist soll Spezialist schlagen

Noch erreicht Veo 3 nicht das Niveau spezialisierter Modelle wie Metas Bildsegmentierungsmodell SAMv2. Doch die raschen Fortschritte innerhalb eines halben Jahres deuten auf ein klares Entwicklungstempo hin: In quantitativen Tests übertraf Veo 3 seinen Vorgänger Veo 2 deutlich. In einigen Aufgaben erreicht es Ergebnisse auf Augenhöhe mit spezialisierten Bildmodellen wie Nano Banana, in anderen – etwa bei unregelmäßigen Labyrinthen – übertrifft es diese sogar.

Die Forscher erwarten, dass Verfahren wie Instruction Tuning oder Reinforcement Learning with Human Feedback (RLHF) Veo 3 künftig weiter verbessern könnten, analog zur Entwicklung früher LLMs.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

„Wir glauben, dass Videomodelle zu vereinenden, allgemein einsetzbaren Grundmodellen für maschinelles Sehen werden, so wie große Sprachmodelle (LLMs) zu Grundmodellen für die Verarbeitung natürlicher Sprache (NLP) geworden sind“, schreiben die Autoren.

Die Beobachtungen dürften auch die Überzeugung von Deepmind-CEO Demis Hassabis stützen, dass Videomodelle künftig als sogenannte „Weltmodelle“ fungieren könnten, also als Systeme, die physikalisch konsistente Simulationen erzeugen, in denen KI effizient lernen kann. Mit Genie 3 präsentierte Deepmind bereits ein solches Modell, das in Echtzeit interaktive Umgebungen für Agententraining erzeugen kann.

Die These ist allerdings umstritten: Metas KI-Chef Yann LeCun bezeichnet den generativen Weltmodell-Ansatz à la Sora als Sackgasse und verweist mit V-JEPA 2 auf eine alternative, prädiktive Architektur mit physikalischem Verständnis und Roboterkontrolle.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Googles neues Videomodell Veo 3 zeigt in einer breit angelegten Studie vielseitige Zero-Shot-Fähigkeiten in Bildverarbeitung, physikbasiertem Weltverständnis, Bildmanipulation und visuellem Reasoning ohne task-spezifisches Training.
  • Veo 3 kann klassische Wahrnehmungsaufgaben lösen, physikalische Eigenschaften korrekt vorhersagen, Szenen manipulieren und visuelles Reasoning betreiben. In manchen Aufgaben kommt es spezialisierten Modellen nahe oder übertrifft diese sogar.
  • Die Forscher sehen Videomodelle wie Veo 3 als möglichen Weg zu sogenannten „Weltmodellen“, die Simulationen für KI-Training erstellen können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!