Inhalt
summary Zusammenfassung

Forscher der ETH Zürich, des INSAIT und von LatticeFlow AI haben die erste umfassende Evaluierungsplattform für generative KI-Modelle im Kontext des EU AI Acts entwickelt. Die Ergebnisse zeigen erhebliche Lücken bei aktuellen Modellen und Benchmarks.

Anzeige

Wissenschaftler der ETH Zürich, des Instituts für Künstliche Intelligenz und Technologie (INSAIT) in Sofia und des Startups LatticeFlow AI haben die erste Evaluierungsplattform für generative KI-Modelle im Kontext des EU-KI-Gesetzes vorgestellt. Das als COMPL-AI bezeichnete Framework umfasst eine technische Interpretation des Gesetzes sowie eine offene Benchmarking-Suite zur Bewertung großer Sprachmodelle (LLMs).

"Wir laden KI-Forscher, Entwickler und Regulierungsbehörden ein, sich an diesem sich weiterentwickelnden Projekt zu beteiligen", sagte Prof. Martin Vechev, Professor an der ETH Zürich und Gründer sowie wissenschaftlicher Direktor des INSAIT in Sofia. "Wir ermutigen andere Forschungsgruppen und Praktiker, durch die Verfeinerung des AI Act Mappings, das Hinzufügen neuer Benchmarks und die Erweiterung dieses Open-Source-Frameworks beizutragen."

Erste technische Interpretation des EU-KI-Gesetzes

Das im August 2024 in Kraft getretene EU-KI-Gesetz legt zwar allgemeine regulatorische Anforderungen fest, bietet jedoch keine detaillierten technischen Richtlinien für Unternehmen. COMPL-AI soll diese Lücke schließen, indem es die rechtlichen Vorgaben in messbare technische Anforderungen übersetzt.

Anzeige
Anzeige
Infografik: EU AI Act-Prinzipien, technische Anforderungen und zugehörige Benchmarks für KI-Systeme, farblich codiert nach Kategorien.
Übersetzung von Anforderungen des EU AI Acts in technische Messpunkte. | Bild: ETH Zurich, Department of Computer Science, LatticeFlow AI, INSAIT, Sofia University

Das Framework basiert auf 27 state-of-the-art Benchmarks, die zur Evaluierung von LLMs hinsichtlich dieser technischen Anforderungen verwendet werden können. Die Methodik kann auch auf die Bewertung von KI-Modellen in Bezug auf zukünftige Regulierungen über das EU-KI-Gesetz hinaus ausgeweitet werden.

 

Flussdiagramm: EU AI Act-Anforderungen werden in technische Benchmarks für KI-Modelle übersetzt, mit Fokus auf Robustheit und Copyright-Einhaltung.
Übersetzung von technischen Anforderungen des EU AI Acts in Benchmarks. | Bild: ETH Zurich, Department of Computer Science, LatticeFlow AI, INSAIT, Sofia University

Erste compliance-orientierte Evaluierung öffentlicher KI-Modelle

Im Rahmen der Veröffentlichung wurden auch erstmals öffentliche generative KI-Modelle von Unternehmen wie OpenAI, Meta, Google, Anthropic und Alibaba anhand der technischen Interpretation des EU-KI-Gesetzes bewertet.

Die Evaluierung deckte wichtige Lücken auf: Mehrere leistungsstarke Modelle erfüllen die regulatorischen Anforderungen nur unzureichend, wobei viele bei Cybersicherheits- und Fairness-Benchmarks nur etwa 50% erreichen. Positiv ist, dass die meisten Modelle bei den Anforderungen zu schädlichen Inhalten und Toxizität gut abschnitten.

Leistungsvergleichstabelle: KI-Modelle bewertet nach technischer Robustheit, Datenschutz, Transparenz, Fairness und gesellschaftlichem Wohlergehen.
Vergleich der Modelle nach ethischen Prinzipien des EU AI Acts. | Bild: ETH Zurich, Department of Computer Science, LatticeFlow AI, INSAIT, Sofia University

Kleinere Modelle haben laut den Forschenden schlechtere Karten, da diese oft den Fokus auf Fähigkeiten über ethische Aspekte wie Diversität und Fairness legen.

Empfehlung

Überraschenderweise setzte sich ein Modell der nicht gerade für besonders ethisch sorgsame Entwicklung bekannten Firma OpenAI durch: GPT-4 Turbo. Dicht gefolgt von Claude 3 Opus, welche laut den Benchmarks weniger Transparenz herstellte, dafür aber sicherer gegenüber Angriffen war.

Leistungsvergleichstabelle: KI-Modelle bewertet nach Gesamtleistung, Robustheit, Zuverlässigkeit, Datenschutz und anderen Kriterien.
Vergleich der Modelle nach technischen Anforderungen des EU AI Acts. | Bild: ETH Zurich, Department of Computer Science, LatticeFlow AI, INSAIT, Sofia University

"Mit diesem Framework kann jedes Unternehmen - ob es mit öffentlichen, angepassten oder privaten Modellen arbeitet - seine KI-Systeme nun anhand der technischen Interpretation des EU-KI-Gesetzes evaluieren", sagte Dr. Petar Tsankov, CEO und Mitbegründer von LatticeFlow AI.

Europäische Kommission begrüßt die Initiative

Thomas Regnier, Sprecher der Europäischen Kommission für digitale Wirtschaft, Forschung und Innovation, kommentierte die Veröffentlichung: "Die Europäische Kommission begrüßt diese Studie und KI-Modell-Evaluierungsplattform als einen ersten Schritt zur Übersetzung des EU-KI-Gesetzes in technische Anforderungen, die KI-Modellanbietern bei der Umsetzung des KI-Gesetzes helfen."

Die Veröffentlichung von COMPL-AI könnte auch den GPAI-Arbeitsgruppen zugute kommen, die mit der Überwachung der Umsetzung und Durchsetzung der KI-Gesetz-Regeln für KI-Modelle für allgemeine Zwecke (GPAI) beauftragt sind. Sie können das technische Interpretationsdokument als Ausgangspunkt für ihre Bemühungen nutzen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der ETH Zürich, des INSAIT und von LatticeFlow AI haben COMPL-AI entwickelt, die erste umfassende Evaluierungsplattform für generative KI-Modelle im Kontext des EU AI Acts. Das Framework übersetzt rechtliche Vorgaben in messbare technische Anforderungen.
  • Eine Bewertung öffentlicher KI-Modelle anhand von 27 State-of-the-Art-Benchmarks deckte Lücken auf: Viele Modelle erfüllen regulatorische Anforderungen nur unzureichend, insbesondere bei Cybersicherheit und Fairness. GPT-4 Turbo und Claude 3 Opus schnitten am besten ab.
  • Die Europäische Kommission begrüßt COMPL-AI als ersten Schritt zur Übersetzung des EU-KI-Gesetzes in technische Anforderungen. Das Framework könnte auch den GPAI-Arbeitsgruppen bei der Überwachung der Umsetzung und Durchsetzung der KI-Gesetz-Regeln helfen.
Quellen
Kim setzt sich mit den ethischen, wirtschaftlichen und politischen Auswirkungen von KI auseinander. Und natürlich mit der Frage: Wovon träumen Roboter?
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!