Skip to content

Google veröffentlicht Open-Source-Tool für KI-Modellvergleiche aller Anbieter

Image description
GPT-Image-1 prompted by THE DECODER

Kurz & Knapp

  • Google hat mit LMEval ein Open-Source-Framework vorgestellt, das die standardisierte Evaluierung großer Sprach- und Multimodalmodelle verschiedener Anbieter ermöglichen und vereinfachen soll.
  • Es unterstützt Text-, Bild- und Code-Benchmarks sowie flexible Bewertungsmetriken und erkennt ausweichende Antwortstrategien der Modelle.
  • Die technische Basis bildet das LiteLLM-Framework, das Schnittstellen zu Anbietern wie Google, OpenAI, Anthropic, Ollama und Hugging Face abstrahiert. Ein Visualisierungstool namens LMEvalboard bietet detaillierte Analysen, Radarcharts und Drilldown-Ansichten.

Mit LMEval stellt Google ein Framework zur standardisierten Evaluierung großer Sprach- und Multimodalmodelle vor. Es soll Benchmarks vereinfachen und Sicherheitsanalysen unterstützen.

Google hat mit LMEval ein Open-Source-Framework veröffentlicht, das den Vergleich großer KI-Modelle unterschiedlicher Anbieter vereinfachen soll. Laut Google ermöglicht das Tool eine systematische und effiziente Evaluierung, etwa von Modellen wie GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash oder Llama-3.1-405B.

Bisher war es für Entwickler:innen und Forschende schwierig, neue Modelle schnell und zuverlässig zu bewerten. Unterschiedliche Schnittstellen, Datenformate und Benchmarkstrukturen erschwerten die Vergleichbarkeit. LMEval soll diesen Prozess vereinheitlichen: Ein einmal definierter Benchmark kann mit geringem Aufwand auf verschiedene Modelle angewendet werden – unabhängig vom Anbieter.

Multimodale Benchmarks und Sicherheitsmetriken

LMEval ist nicht auf Text beschränkt, sondern unterstützt auch Benchmarks mit Bild- und Codeinhalten. Neue Eingabeformate lassen sich laut Google leicht ergänzen. Die Bewertungsmetriken sind flexibel: Ja/Nein-Fragen, Multiple-Choice-Antworten und freie Textgenerierung sind möglich. Zudem erkennt LMEval sogenannte Punting-Strategien – Fälle, in denen Modelle bewusst ausweichend antworten, um problematische Aussagen zu vermeiden.

Balkendiagramm: Giskard-Benchmark zur Schädlichkeit von KI-Modellen (GPT, Claude, Gemini etc.). Höhere Werte bedeuten mehr Sicherheit.
Die Sicherheitsbewertungen von Giskard vergleichen, wie effektiv verschiedene KI-Modelle potenziell schädliche Inhalte vermeiden, wobei höhere Prozentwerte eine größere Sicherheit indizieren. | Bild: Google

Die Ergebnisse werden in einer selbstverschlüsselnden SQLite-Datenbank gespeichert. Diese schützt die Daten vor unbeabsichtigtem Zugriff durch Suchmaschinen und bleibt dennoch lokal zugänglich.

Vergleichbarkeit ohne API-Hürden

LMEval nutzt das LiteLLM-Framework als technische Basis. Dieses abstrahiert die Schnittstellen verschiedener Modellanbieter und unterstützt unter anderem Schnittstellen von Google, OpenAI, Anthropic, Ollama und Hugging Face. Ein definierter Test kann dadurch ohne größere Anpassungen auf unterschiedlichen Plattformen ausgeführt werden.

Ein zentrales Merkmal ist die sogenannte inkrementelle Evaluierung: Statt bei jedem neuen Modell oder jeder neuen Fragestellung die gesamte Testsuite erneut auszuführen, führt LMEval nur die zusätzlich notwendigen Tests durch. Das spart Zeit und Rechenleistung. Zusätzlich kommt eine sogenannte Multithreaded-Engine zum Einsatz – eine Technik, bei der mehrere Rechenschritte gleichzeitig auf verschiedenen Prozessorkernen ausgeführt werden, um den Ablauf ebenfalls zu beschleunigen.

Dashboard ermöglicht detaillierte Analyse

Zur Auswertung der Ergebnisse bietet Google das Visualisierungstool LMEvalboard an. Es ermöglicht unter anderem Radarcharts, um die Leistung eines Modells in verschiedenen Kategorien grafisch darzustellen. Einzelne Modelle lassen sich im Detail analysieren.

Video: Google

LMEvalboard unterstützt auch sogenannte Drilldown-Ansichten: Nutzer:innen können von der Übersichtsebene gezielt in einzelne Aufgaben hineinzoomen, um konkrete Fehler eines Modells nachzuvollziehen. Ebenso lassen sich zwei Modelle direkt miteinander vergleichen, inklusive grafischer Darstellung der Unterschiede bei bestimmten Fragestellungen.

Der Quellcode sowie Beispiel-Notebooks stehen auf GitHub zur Verfügung.

Quelle: Google | GitHub

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren