Inhalt
summary Zusammenfassung

"Whiteboard-of-Thought" ermöglicht es multimodalen Sprachmodellen, Bilder als Zwischenschritte beim Denken zu verwenden. Dies verbessert ihre Leistung bei Aufgaben, die visuelles und räumliches Denken erfordern.

Anzeige

Forscher der Columbia University haben eine neue Technik entwickelt, mit der multimodale große Sprachmodelle (MLLMs) wie OpenAIs GPT-4o visuelle Zwischenschritte beim Denken nutzen können. Sie nennen diese Methode "Whiteboard-of-Thought" (WoT) in Anlehnung an die weit verbreitete "Chain-of-Thought"-Methode (CoT).

Während CoT Sprachmodelle dazu bringt Zwischenschritte in Schlussfolgerungen aufzuschreiben, stellt WoT den MLLMs eine metaphorische "Tafel" zur Verfügung, auf der sie die Ergebnisse von Zwischendenkschritten als Bilder festhalten können.

Dazu nutzen die Forscher die Fähigkeit der Modelle, Code mit Visualisierungsbibliotheken wie Turtle und Matplotlib zu schreiben. Der generierte Code wird ausgeführt, um ein Bild zu erzeugen. Dieses Bild wird dann als visueller Input an das multimodale Modell zurückgegeben, um weitere Schritte zur Erzeugung einer endgültigen Antwort durchzuführen.

Anzeige
Anzeige

Whiteboard-of-Thought bringt Leistungssprünge in visuellen Benchmarks

Die Forscher demonstrieren das Potenzial dieser Idee anhand von drei BIG-Bench-Aufgaben, bei denen es um das Verständnis von ASCII-Kunst geht, sowie anhand eines kürzlich veröffentlichten schwierigen Benchmarks zur Bewertung räumlicher Denkfähigkeiten.

Bei diesen Aufgaben, die sich bisher als schwierig für aktuelle Modelle erwiesen haben, ermöglicht WoT einen signifikanten Leistungssprung und übertrifft die Leistung von Modellen, die nur auf Text basieren, deutlich.

Die Autoren führen auch eine detaillierte Fehleranalyse durch, um zu verstehen, wo die Methode erfolgreich ist und wo ihre Grenzen liegen. Sie stellen fest, dass ein großer Teil der verbleibenden Fehler auf die visuelle Wahrnehmung zurückzuführen ist. Mit besseren Modellen werde der Nutzen von WoT weiter zunehmen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Columbia University haben eine Technik namens "Whiteboard-of-Thought" (WoT) entwickelt, die es multimodalen großen Sprachmodellen ermöglicht, Bilder als Zwischenschritte beim Denken zu nutzen und so ihre Leistung bei Aufgaben zu verbessern, die visuelles und räumliches Denken erfordern.
  • WoT stellt den Modellen eine metaphorische "Tafel" zur Verfügung, auf der sie die Ergebnisse von Zwischendenkschritten als Bilder festhalten können, indem sie Code mit Visualisierungsbibliotheken generieren. Das erzeugte Bild wird dann als visueller Input an das Modell zurückgegeben, um weitere Schritte zur Erzeugung einer endgültigen Antwort durchzuführen.
  • Die Forscher demonstrieren das Potenzial von WoT anhand von Benchmarks, bei denen es um das Verständnis von ASCII-Kunst und die Bewertung räumlicher Denkfähigkeiten geht. WoT ermöglicht signifikante Leistungssprünge und übertrifft die Leistung rein textbasierter Modelle deutlich, wobei ein Großteil der verbleibenden Fehler auf Einschränkungen in der visuellen Wahrnehmung zurückzuführen ist.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!