Inhalt
summary Zusammenfassung

Forscher haben ein KI-System entwickelt, das die Textqualität großer Sprachmodelle automatisch bewertet. Die Modelle mit dem Namen "FLAMe" übertreffen in vielen Bereichen sogar kommerzielle Systeme wie GPT-4.

Anzeige

Forscher von Google DeepMind, Google und UMass Amherst haben eine neue Methode zur automatischen Bewertung von KI-Texten entwickelt. Die KI-Systeme mit dem Namen "FLAMe" (Foundational Large Autorater Models) wurden darauf trainiert, die Qualität von generierten Texten in verschiedenen Kategorien zu bewerten.

Eine solche automatisierte Bewertung werde immer wichtiger, da menschliche Bewertungen zeitaufwändig und kostspielig seien und KI-Texte immer mehr Verbreitung fänden. Bisherige KI-gestützte Bewertungssysteme hätten oft Probleme mit Voreingenommenheit oder verwendeten urheberrechtlich geschützte Daten.

FLAMe hingegen wurde mit über 5,3 Millionen menschlichen Bewertungen aus 102 verschiedenen Aufgaben trainiert. Diese umfassen Bereiche wie allgemeine Textqualität, sachliche Richtigkeit, mathematisches Denken und Programmieren. Die Daten stammen ausschließlich aus öffentlich zugänglichen Quellen mit offenen Lizenzen.

Anzeige
Anzeige

FLAMe schlägt GPT-4 und Claude 3

In Tests hat FLAMe kommerzielle Systeme wie GPT-4 und Claude 3 bei 8 von 12 Bewertungsaufgaben übertroffen. Besonders gut schnitt das System bei der Bewertung der Faktengenauigkeit und der Zuordnung ab. Hier erreichte FLAMe einen Gesamtwert von 81,1 Prozent, während GPT-4 auf 80,6 Prozent kam.

Die Forscher entwickelten auch eine speziell für die Belohnungsmodellierung optimierte Variante namens FLAMe-RM. Diese erreichte im RewardBench-Test, einem Standard-Benchmark für Belohnungsmodelle, eine Genauigkeit von 87,8 Prozent - mehr als GPT-4 und GPT-4o. Solche Belohnungsmodelle können verwendet werden, um Modelle an menschliche Präferenzen anzupassen, zum Beispiel beim Reinforcement Learning mit menschlichem Feedback.

Ein wichtiger Vorteil von FLAMe ist nach Ansicht der Wissenschaftler die geringere Verzerrung im Vergleich zu kommerziellen Systemen. Tests haben gezeigt, dass FLAMe weniger anfällig für Verzerrungen durch Textlängen oder irrelevante Kontextinformationen ist.

FLAMe ist frei verfügbar

Die Forscher sehen in FLAMe einen wichtigen Schritt zur Entwicklung offener und transparenter Bewertungssysteme für KI-generierte Texte. Sie planen, die Trainingsdaten und Modelle öffentlich zugänglich zu machen, um weitere Forschung auf diesem Gebiet zu ermöglichen.

Allerdings weisen die Wissenschaftler auch auf mögliche Risiken hin: So könnte ein übermäßiger Einsatz solcher automatisierter Bewertungssysteme dazu führen, dass menschliche Perspektiven vernachlässigt werden. Außerdem bestehe die Gefahr, dass die Systeme bestehende Vorurteile in den Trainingsdaten verstärken.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Google DeepMind, Google und UMass Amherst haben KI-Systeme namens "FLAMe" entwickelt, die die Qualität von KI-generierten Texten automatisch bewerten können. Sie wurden mit über 5,3 Millionen menschlichen Bewertungen aus 102 verschiedenen Aufgaben trainiert.
  • In Tests übertraf FLAMe kommerzielle Systeme wie GPT-4 und Claude-3 bei 8 von 12 Bewertungsaufgaben. Bei der Bewertung der Faktengenauigkeit und Zuordnung erreichte FLAMe 81,1 Prozent, während GPT-4 auf 80,6 Prozent kam.
  • Die Forscher sehen FLAMe als wichtigen Schritt zur Entwicklung offener und transparenter Bewertungssysteme für KI-Texte. Sie planen, die Trainingsdaten und Modelle öffentlich zugänglich zu machen, weisen aber auch auf mögliche Risiken wie die Vernachlässigung menschlicher Perspektiven hin.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!