Inhalt
summary Zusammenfassung

Mit LMEval stellt Google ein Framework zur standardisierten Evaluierung großer Sprach- und Multimodalmodelle vor. Es soll Benchmarks vereinfachen und Sicherheitsanalysen unterstützen.

Anzeige

Google hat mit LMEval ein Open-Source-Framework veröffentlicht, das den Vergleich großer KI-Modelle unterschiedlicher Anbieter vereinfachen soll. Laut Google ermöglicht das Tool eine systematische und effiziente Evaluierung, etwa von Modellen wie GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash oder Llama-3.1-405B.

Bisher war es für Entwickler:innen und Forschende schwierig, neue Modelle schnell und zuverlässig zu bewerten. Unterschiedliche Schnittstellen, Datenformate und Benchmarkstrukturen erschwerten die Vergleichbarkeit. LMEval soll diesen Prozess vereinheitlichen: Ein einmal definierter Benchmark kann mit geringem Aufwand auf verschiedene Modelle angewendet werden – unabhängig vom Anbieter.

Multimodale Benchmarks und Sicherheitsmetriken

LMEval ist nicht auf Text beschränkt, sondern unterstützt auch Benchmarks mit Bild- und Codeinhalten. Neue Eingabeformate lassen sich laut Google leicht ergänzen. Die Bewertungsmetriken sind flexibel: Ja/Nein-Fragen, Multiple-Choice-Antworten und freie Textgenerierung sind möglich. Zudem erkennt LMEval sogenannte Punting-Strategien – Fälle, in denen Modelle bewusst ausweichend antworten, um problematische Aussagen zu vermeiden.

Anzeige
Anzeige
Balkendiagramm: Giskard-Benchmark zur Schädlichkeit von KI-Modellen (GPT, Claude, Gemini etc.). Höhere Werte bedeuten mehr Sicherheit.
Die Sicherheitsbewertungen von Giskard vergleichen, wie effektiv verschiedene KI-Modelle potenziell schädliche Inhalte vermeiden, wobei höhere Prozentwerte eine größere Sicherheit indizieren. | Bild: Google

Die Ergebnisse werden in einer selbstverschlüsselnden SQLite-Datenbank gespeichert. Diese schützt die Daten vor unbeabsichtigtem Zugriff durch Suchmaschinen und bleibt dennoch lokal zugänglich.

Vergleichbarkeit ohne API-Hürden

LMEval nutzt das LiteLLM-Framework als technische Basis. Dieses abstrahiert die Schnittstellen verschiedener Modellanbieter und unterstützt unter anderem Schnittstellen von Google, OpenAI, Anthropic, Ollama und Hugging Face. Ein definierter Test kann dadurch ohne größere Anpassungen auf unterschiedlichen Plattformen ausgeführt werden.

Ein zentrales Merkmal ist die sogenannte inkrementelle Evaluierung: Statt bei jedem neuen Modell oder jeder neuen Fragestellung die gesamte Testsuite erneut auszuführen, führt LMEval nur die zusätzlich notwendigen Tests durch. Das spart Zeit und Rechenleistung. Zusätzlich kommt eine sogenannte Multithreaded-Engine zum Einsatz – eine Technik, bei der mehrere Rechenschritte gleichzeitig auf verschiedenen Prozessorkernen ausgeführt werden, um den Ablauf ebenfalls zu beschleunigen.

Dashboard ermöglicht detaillierte Analyse

Zur Auswertung der Ergebnisse bietet Google das Visualisierungstool LMEvalboard an. Es ermöglicht unter anderem Radarcharts, um die Leistung eines Modells in verschiedenen Kategorien grafisch darzustellen. Einzelne Modelle lassen sich im Detail analysieren.

Video: Google

Empfehlung

LMEvalboard unterstützt auch sogenannte Drilldown-Ansichten: Nutzer:innen können von der Übersichtsebene gezielt in einzelne Aufgaben hineinzoomen, um konkrete Fehler eines Modells nachzuvollziehen. Ebenso lassen sich zwei Modelle direkt miteinander vergleichen, inklusive grafischer Darstellung der Unterschiede bei bestimmten Fragestellungen.

Der Quellcode sowie Beispiel-Notebooks stehen auf GitHub zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google hat mit LMEval ein Open-Source-Framework vorgestellt, das die standardisierte Evaluierung großer Sprach- und Multimodalmodelle verschiedener Anbieter ermöglichen und vereinfachen soll.
  • Es unterstützt Text-, Bild- und Code-Benchmarks sowie flexible Bewertungsmetriken und erkennt ausweichende Antwortstrategien der Modelle.
  • Die technische Basis bildet das LiteLLM-Framework, das Schnittstellen zu Anbietern wie Google, OpenAI, Anthropic, Ollama und Hugging Face abstrahiert. Ein Visualisierungstool namens LMEvalboard bietet detaillierte Analysen, Radarcharts und Drilldown-Ansichten.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!