Inhalt
summary Zusammenfassung

Während Menschen analoge Uhren mit 89,1 Prozent Genauigkeit lesen, erreicht das beste KI-Modell nur 13,3 Prozent. Die Ergebnisse werfen Fragen zum visuellen Reasoning aktueller Sprachmodelle auf.

Anzeige

Alek Safar hat 11 verschiedene Sprachmodelle von sechs Unternehmen gegen fünf menschliche Teilnehmende antreten lassen. Der neue Benchmark namens ClockBench umfasst 180 speziell erstellte analoge Uhren mit insgesamt 720 Fragen und folgt dem Prinzip "einfach für Menschen, schwer für KI", ähnlich wie ARC-AGI oder SimpleBench.

Um Verzerrungen durch bereits bekannte Trainingsdaten zu vermeiden, erstellte Safar den gesamten Datensatz neu. Die 36 verschiedenen Zifferblatt-Designs kombinieren systematisch Features wie römische oder arabische Ziffern, verschiedene Ausrichtungen, Stundenmarkierungen, gespiegelte Darstellungen und bunte Hintergründe. Pro Design wurden fünf Uhren mit unterschiedlichen Zeiten erstellt.

Raster aus neun Watch Faces mit unterschiedlichen Dial-, Format-, Numeral- und Kalendervarianten.
Acht exemplarische Uhrendesigns aus dem privaten ClockBench-Datensatz (36 Gesichter, 180 Uhren, 720 Fragen), die die Vielfalt an Zifferblättern, Formaten, Numeral- und Kalenderoptionen zusammenfassen. | Bild: Alek Safar

Jede Uhr wurde mit vier Aufgaben getestet: Zeitablesung, Zeitrechnungen, Zeigerverschiebungen um bestimmte Winkel und Zeitzonen-Umrechnungen. Je nach Uhrentyp erlaubte Safar unterschiedliche Genauigkeitsstufen, bei Uhren mit nur Stundenzeiger waren etwa größere Abweichungen akzeptabel als bei präzisen Uhren mit allen drei Zeigern.

Anzeige
Anzeige

ClockBench soll nach Angaben des Forschers schwieriger für Modelle sein als wissensintensive Benchmarks wie "Humanity's Last Exam". Die Studie zeigt eine deutliche Kluft zwischen menschlicher und maschineller Leistung bei einer scheinbar trivialen Aufgabe.

Google-Modelle führen schwaches Feld an

Googles Gemini 2.5 Pro erreichte mit 13,3 Prozent die beste Performance, gefolgt von Gemini 2.5 Flash mit 10,5 Prozent. GPT-5 landete mit 8,4 Prozent auf dem dritten Platz, wobei unterschiedliche Reasoning-Budgets kaum Einfluss auf das Ergebnis hatten.

Balkendiagramm: ClockBench-Zeitableseleistung, Human Baseline 89,1 % vs. KI-Modelle (Gemini 2.5 Pro 13,3 %, GPT-5 High 8,4 %, …)
Zwischen dem besten Sprachmodell und dem menschlichen Vergleichswert liegt eine große Lücke. | Bild: Alek Safar

Überraschend war die schwache Leistung von Grok 4, das mit nur 0,7 Prozent Genauigkeit das Schlusslicht bildete, obwohl es in vielen anderen Benchmarks die Konkurrenz übertrifft. Das Modell markierte 63,3 Prozent aller Uhren als ungültig, obwohl nur 37 von 180 Uhren tatsächlich unmögliche Zeiten zeigten. Ironischerweise führte diese übermäßig konservative Strategie dazu, dass Grok 4 bei den alleinigen richtigen Antworten technisch die höchste Anzahl erreichte, allerdings nur durch zufällige Treffer bei seinem pauschalen Ungültig-Ansatz.

Die Anthropic-Modelle Claude 4 Sonnet (4,2 Prozent) und Claude 4.1 Opus (5,6 Prozent) blieben ebenfalls hinter den Erwartungen zurück. Laut der Studie überlappten sich die korrekten Antworten der Modelle stark: 61,7 Prozent aller Uhren wurden von keinem einzigen Modell richtig gelesen.

Unterschiede bei Fehlergrößen

Noch deutlicher als die Genauigkeitsunterschiede waren die Fehlergrößen bei falschen Antworten. Menschen machten im Median nur 3-Minuten-Fehler, während selbst das beste KI-Modell median eine Stunde daneben lag. Die schwächsten Modelle erreichten Fehlergrößen von etwa drei Stunden, was bei 12-Stunden-Uhren praktisch zufälligen Raten entspricht.

Empfehlung
Raster aus neun Analoguhr-Varianten und Tabelle der Durchschnitts- und Medianfehler: Mensch 0:47/0:03, KI-Modelle 1:00–3:01 Std.
Menschen haben einen Medianfehler von 3 Minuten beim Ablesen analoger Uhren, KI-Modelle liegen mit Medianabweichungen zwischen 1 und über 3 Stunden deutlich höher. | Bild: Alek Safar

Bestimmte Uhren-Features erwiesen sich als besonders problematisch für die Modelle. Römische Ziffern führten zu nur 3,2 Prozent Genauigkeit, kreisförmig angeordnete Zahlen zu 4,5 Prozent. Auch Sekundenzeiger, bunte Hintergründe und gespiegelte Uhren bereiteten Schwierigkeiten.

Am einfachsten waren Uhren mit nur einem Stundenzeiger (23,6 Prozent Genauigkeit), da hier größere Fehlertoleranzen erlaubt waren. Standarduhren mit arabischen Ziffern und einfachen Zifferblättern schnitten ebenfalls besser ab.

Tabelle der Modellgenauigkeit nach Uhrenmerkmalen: 3,2 % bei römischen Ziffern bis 23,6 % ohne Minutenskala.
Die verschiedenen Eigenschaften der Zifferblätter haben unterschiedliche Auswirkungen auf die Fähigkeit der Modelle, die Uhr zu lesen. | Bild: Alek Safar

Zeitrechnung funktioniert, Zeitablesung nicht

Ein unerwartetes Ergebnis zeigt sich bei den Follow-up-Fragen: Konnten die Modelle eine Uhrzeit korrekt ablesen, erreichten sie bei Zeitrechnungen, Zeigerverschiebungen oder Zeitzonen-Umrechnungen oft 100 Prozent Genauigkeit. Die Fähigkeit zur Zeitmanipulation ist also vorhanden, nur das initiale Ablesen der visuellen Information scheitert.

Safar spekuliert über mögliche Ursachen: Das Ablesen analoger Uhren könnte eine hohe Messlatte für visuelles Reasoning setzen. Ungewöhnliche Uhren seien möglicherweise nicht ausreichend in den Trainingsdaten repräsentiert, während gleichzeitig die Übersetzung visueller Uhren-Repräsentationen in Textbeschreibungen für weitere Verarbeitung problematisch sein könnte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Benchmark soll KI-Entwicklung vorantreiben

ClockBench ist als fortlaufender Benchmark konzipiert. Der vollständige Datensatz bleibt privat, um Kontamination von Trainingsmaterial zu vermeiden, während eine kleinere öffentliche Version für Tests verfügbar ist.

Trotz der ernüchternden Ergebnisse sieht Safar optimistische Signale: Die besten Modelle lägen konsistent über dem Zufallsniveau und zeigten grundsätzliche Fähigkeiten zum visuellen Reasoning. Ob diese durch Skalierung bestehender Ansätze oder völlig neue Methoden verbessert werden können, bleibt laut der Studie eine offene Forschungsfrage.

Bereits vor rund einem Jahr hatte eine chinesische Studie multimodalen Sprachmodellen Schwächen beim Uhrlesen attestiert, allerdings mit deutlich besseren Ergebnissen. Damals erreichte GPT-4o bei Dashboard-Aufgaben, die das Ablesen von Uhren und Messgeräten erforderten, noch 54,8 Prozent Genauigkeit. Die aktuellen ClockBench-Ergebnisse mit maximal 13,3 Prozent für das beste Modell deuten darauf hin, dass der neue Test deutlich anspruchsvoller ist, sich die Fähigkeiten der Modelle beim Uhrlesen aber auch nicht sonderlich verbessert haben.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Im ClockBench-Benchmark konnten Menschen analoge Uhren mit 89,1 Prozent Genauigkeit ablesen, während das beste KI-Modell, Googles Gemini 2.5 Pro, nur 13,3 Prozent erreichte; andere Modelle wie GPT-5 und Grok 4 schnitten noch schlechter ab.
  • Die KI-Modelle hatten vor allem Probleme mit bestimmten Uhrendesigns wie römischen Ziffern, gespiegelten Darstellungen und bunten Hintergründen; der Medianfehler lag bei Maschinen zwischen einer und über drei Stunden, während Menschen im Mittel nur drei Minuten daneben lagen.
  • Obwohl die Modelle bei Aufgaben wie Zeitrechnungen oder Zeigerverschiebungen nach korrektem Ablesen fast fehlerfrei waren, scheiterten sie meist schon an der grundlegenden visuellen Erfassung der Uhrzeit – ein Hinweis auf grundlegende Defizite beim visuellen Reasoning aktueller Sprachmodelle.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!