Googles MatCha ist ein Foundation-Modell, das sowohl für das De-Rendering von Diagrammen als auch für mathematische Schlussfolgerungen trainiert wurde. Beim De-Rendering von Diagrammen geht es um das Reverse Engineering von Diagrammen, Plots oder Grafiken, um die zugrunde liegende Datentabelle oder den zugrunde liegenden Code aufzudecken, während beim mathematischen Schlussfolgern versucht wird, Fragen zu mathematischen Texten zu beantworten. MatCha erreicht durch Kombination dieser beiden Fähigkeiten eine deutlich höhere Leistung als andere KI-Modelle für das visuelle Verständnis von Diagrammen. Auf der Grundlage von MatCha hat das Team auch DePlot entwickelt, ein Modell, das Diagramme in Tabellen übersetzt und so bessere Schlussfolgerungen aus ihnen ermöglicht.
