Anzeige
Skip to content

Googles PaperBanana lässt fünf KI-Agenten wissenschaftliche Diagramme erstellen

Image description
Google/Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Forscher der Peking University und Google Cloud AI Research haben mit PaperBanana ein System entwickelt, bei dem fünf spezialisierte KI-Agenten zusammenarbeiten, um aus Methodenbeschreibungen publikationsreife Diagramme für wissenschaftliche Paper zu generieren.
  • In Tests bevorzugten menschliche Gutachter die PaperBanana-Diagramme in knapp 73 Prozent der Fälle gegenüber einfacher Bildgenerierung.
  • Das System kämpft noch mit inhaltlichen Fehlern wie falsch ausgerichteten Verbindungslinien oder Pfeilen. Bei der inhaltlichen Treue erreicht PaperBanana nur 45,8 Prozent und liegt damit unter dem menschlichen Referenzwert.

Mehrere KI-Agenten sollen gemeinsam Diagramme für Forschungspapiere erstellen. Das System PaperBanana übertrifft einfache Bildgeneratoren deutlich, kämpft aber noch mit inhaltlichen Fehlern.

Forscher der Peking University und Google Cloud AI Research haben ein System entwickelt, das wissenschaftliche Illustrationen automatisch erstellt. Das Framework PaperBanana, angelehnt an Googles Nano Banana, lässt fünf spezialisierte KI-Agenten zusammenarbeiten, um aus Methodenbeschreibungen publikationsreife Diagramme zu erzeugen.

Abbildungen für wissenschaftliche Paper zu erstellen gilt laut der Veröffentlichung als einer der letzten manuellen Engpässe im Forschungsalltag. Während KI-Systeme inzwischen bei Literaturrecherche, Ideenfindung und Experimentdurchführung helfen, erfordert die visuelle Aufbereitung wissenschaftlicher Erkenntnisse weiterhin viel Handarbeit. Professionelle Illustrationswerkzeuge setzen Spezialwissen voraus, das vielen Forschern fehlt.

Übersicht verschiedener mit PaperBanana erstellter Methodendiagramme und statistischer Grafiken für KI-Forschungspapiere.
PaperBanana generiert sowohl komplexe Methodendiagramme als auch statistische Plots für akademische Publikationen. | Bild: Google

Bisherige Ansätze zur automatischen Diagrammerstellung nutzen codebasierte Methoden wie TikZ oder Python-PPTX. Diese stoßen laut den Forschern an Grenzen bei komplexen visuellen Elementen wie spezialisierten Icons oder individuellen Formen, die in modernen KI-Publikationen inzwischen Standard sind. Reine Bildgenerierungsmodelle liefern zwar visuell ansprechende Ergebnisse, erfüllen aber selten die strengen Anforderungen akademischer Veröffentlichungen.

Anzeige
DEC_D_Incontent-1

Fünf Agenten teilen sich die Arbeit

PaperBanana setzt auf Arbeitsteilung zwischen spezialisierten KI-Agenten. Der erste Agent durchsucht eine Referenzdatenbank nach ähnlichen Diagrammen, die als Vorlage dienen. Ein zweiter übersetzt die Methodenbeschreibung des Papers in eine detaillierte textuelle Bildbeschreibung. Ein dritter verfeinert diese anhand automatisch zusammengefasster Ästhetikrichtlinien, die das System zuvor aus NeurIPS-Publikationen extrahiert hat.

Flussdiagramm des PaperBanana-Frameworks: Linear Planning Phase und Iterative Refinement Loop mit fünf KI-Agenten.
Das PaperBanana-Framework nutzt fünf spezialisierte KI-Agenten, um wissenschaftliche Beschreibungen in publikationsreife Diagramme zu überführen. Auch die meisten Grafiken zur Erklärung von PaperBanana sind damit entstanden. | Bild: Google

Der vierte Agent rendert das Bild mit einem Bildgenerierungsmodell. Der fünfte übernimmt die Qualitätskontrolle: Er prüft das Ergebnis auf Fehler und gibt Verbesserungsvorschläge. Dieser Kreislauf aus Generierung und Kritik wiederholt sich dreimal, bevor das finale Diagramm ausgegeben wird.

Für statistische Plots wie Balken- oder Liniendiagramme wählt das System einen anderen Weg: Statt Grafiken direkt als Bild zu erzeugen, generiert es Python-Code für die Matplotlib-Bibliothek. Das soll die numerische Genauigkeit sicherstellen, die bei Bildgenerierungsmodellen oft auf der Strecke bleibt.

Menschliche Gutachter bevorzugen die KI-Diagramme meist

Für die Evaluation haben die Forscher einen eigenen Benchmark erstellt. Er umfasst 292 Testfälle aus NeurIPS-2025-Publikationen und bewertet die Diagramme in vier Kategorien: inhaltliche Treue, Prägnanz, Lesbarkeit und Ästhetik.

Anzeige
DEC_D_Incontent-2

Im Vergleich zu einfacher Bildgenerierung ohne Agenten-Framework schneidet PaperBanana in allen Kategorien besser ab. Die größten Verbesserungen zeigen sich bei der Prägnanz mit einem Plus von 37,2 Prozent. Bei der Lesbarkeit sind es 12,9 Prozent, bei der Ästhetik 6,6 Prozent. Die inhaltliche Treue verbessert sich um 2,8 Prozent. In einer neutralen Evaluation bevorzugten menschliche Gutachter die PaperBanana-Diagramme in knapp 73 Prozent der Fälle gegenüber der einfachen Baseline.

Die Ergebnisse zeigen aber auch Grenzen. Bei der inhaltlichen Treue erreicht das System nur 45,8 Prozent und liegt damit unter dem menschlichen Referenzwert von 50 Prozent. Die häufigsten Fehler betreffen laut den Forschern Details wie falsch ausgerichtete Verbindungslinien oder Pfeile in die falsche Richtung. Solche Fehler erkennt auch der Kritik-Agent oft nicht, weil sie die Wahrnehmungsfähigkeiten aktueller Sprachmodelle überfordern.

Tabelle zum Vergleich von statistischen Diagrammen: Bild-Generierung vs. Code-Visualisierung mit Fehleranalyse.
Der Vergleich zeigt: Codebasierte Generierung per Matplotlib bietet höhere numerische Treue, direkte Bildgenerierung ist oft visuell ansprechender. Für präzise wissenschaftliche Daten bleibt die programmgesteuerte Visualisierung der verlässlichere Weg. | Bild: Google

Nachbearbeitung bleibt schwierig

Eine wesentliche Einschränkung räumen die Forscher selbst ein: PaperBanana erzeugt Rasterbilder statt der in akademischen Kontexten bevorzugten Vektorgrafiken. Die generierten Diagramme lassen sich daher nicht ohne Weiteres nachbearbeiten. Als Notlösung schlagen die Forscher vor, Bilder in 4K-Auflösung zu generieren und so zumindest die Druckqualität zu sichern.

Für die Zukunft sehen die Entwickler mehrere Ansätze: Bildbearbeitungsmodelle könnten kleinere Anpassungen vornehmen. Aufwendiger wäre eine Rekonstruktionspipeline, die per Texterkennung und Bildsegmentierung einzelne Elemente extrahiert und in editierbare Formate überführt. Am ambitioniertesten wäre ein KI-Agent, der professionelle Vektorsoftware wie Adobe Illustrator eigenständig bedient.

Mehrere Abbildungen im veröffentlichten Paper sind selbst mit PaperBanana entstanden. Für den praktischen Einsatz empfehlen die Forscher, mehrere Varianten zu generieren und die beste manuell auszuwählen.

Automatische Stilverbesserung für bestehende Diagramme

Ein interessanter Nebeneffekt ergibt sich aus den automatisch zusammengefassten Ästhetikrichtlinien: Sie lassen sich auch nutzen, um bestehende menschliche Diagramme optisch aufzuwerten. In Tests erreichten die verfeinerten Versionen eine Gewinnrate von 56,2 Prozent gegenüber den Originalen bei der Ästhetikbewertung.

Vergleich eines originalen und eines KI-optimierten wissenschaftlichen Diagramms mit einer Liste von Verbesserungsvorschlägen.
Die optimierten Versionen erzielen in Nutzerstudien deutlich höhere Akzeptanz bei der ästhetischen Professionalität. | Bild: Google

Die Forscher sehen in ihrem Ansatz ein verallgemeinerbares Muster: Durch das Abrufen von Referenzbeispielen lernt das Modell, welche Art von Diagramm es erstellen soll. Durch die automatische Stilzusammenfassung lernt es, wie ein solches Diagramm aussehen sollte. Diese Trennung von Inhalt und Form könnte auch für andere Domänen wie UI-Design oder technische Zeichnungen relevant sein.

KI-Anbieter investieren zunehmend in Werkzeuge für den wissenschaftlichen Arbeitsprozess. OpenAI hat mit Prism kürzlich einen eigenen LaTeX-Editor mit GPT-5.2-Integration vorgestellt. Gleichzeitig warnen Experten vor einer möglichen Flut wissenschaftlich wirkender Veröffentlichungen, die mithilfe von KI in kürzester Zeit entstehen könnten.

Studien mit KI-Bildgeneratoren zu bebildern ist dabei kein neuer Trend. Vor wenigen Jahren ließen sich solche Versuche allerdings schnell entlarven, weil die Modelle an visueller Kohärenz und lesbarer Textdarstellung scheiterten. Ein prominentes Beispiel war eine 2024 in einem Fachjournal veröffentlichte Studie mit einem offensichtlich fehlerhaften KI-generierten Rattendiagramm, das später zurückgezogen werden musste.

Fehlerhaftes KI-Diagramm einer Ratte mit anatomisch falschen Proportionen und unsinnigen Textbeschriftungen wie „dck“ oder „Retat“.
Diese KI-generierte Grafik aus einer wissenschaftlichen Publikation vom Februar 2024 sorgte wegen anatomischer Fehler und unsinniger Beschriftungen für Kritik. | Bild: Guo et al.

Laut dem Paper und der Projektseite ist PaperBanana nicht öffentlich zum Testen verfügbar. Das System nutzt intern Googles proprietäre Modelle Gemini-3-Pro und Nano-Banana-Pro, die ebenfalls nicht frei zugänglich sind. Auf der Projektseite finden sich weitere Beispielbilder.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv