Inhalt
summary Zusammenfassung

Wenn Künstliche Intelligenz zur Bewertung und Kontrolle anderer KI-Systeme eingesetzt wird, kann deren zunehmende Ähnlichkeit problematisch sein. Das zeigt eine neue Studie, die eine Metrik zur Messung funktionaler Ähnlichkeit von Sprachmodellen vorstellt.

Anzeige

Sprachmodelle werden zunehmend zur Bewertung und Überwachung anderer KI-Systeme eingesetzt. Doch je besser die Modelle werden, desto ähnlicher werden ihre Fehler. Das kann die Vorteile solcher "KI-Aufsicht durch KI"-Ansätze untergraben, warnen Wissenschaftler:innen in einer neuen Studie.

Diagramm: Korrelation zwischen KI-Modell-Ähnlichkeit und Fähigkeiten, unterteilt in Evaluierungs- und Trainingsszenarien mit Graphen und Roboter-Icons.
Je leistungsfähiger KI-Modelle werden, desto ähnlicher werden ihre Fehler. Dies erschwere eine effektive externe Kontrolle durch andere KI-Systeme, so die Forscherinnen und Forscher. | Bild: Goel et al.

Ein Forschungsteam verschiedener Institutionen aus Tübingen, Hyderabad (Indien) und Stanford hat dafür eine neue Metrik namens CAPA (Chance Adjusted Probabilistic Agreement) entwickelt. Sie misst, wie ähnlich sich zwei Sprachmodelle in ihren Fehlern sind - und zwar über das hinaus, was man aufgrund ihrer Genauigkeit erwarten würde.

KI-Richter bevorzugen ihnen ähnliche Modelle

In einem ersten Experiment ließen die Forschenden Sprachmodelle als "Richter" die Ausgaben anderer Modelle bewerten. Die KI-Richter gaben durchweg Modellen höhere Bewertungen, die mehr Fehler mit ihnen teilten. Und zwar auch dann, wenn man die tatsächliche Leistungsfähigkeit der bewerteten Modelle berücksichtigt.

Anzeige
Anzeige

"Es hat sich gezeigt, dass menschliche Interviewer voreingenommen gegenüber Kandidaten mit ähnlichen Kenntnissen und Eigenschaften sind, ein Phänomen, das als Affinitätsverzerrung bezeichnet wird", erklären die Forschenden. "Wir untersuchen, ob Sprachmodelle auch eine Verzerrung gegenüber ähnlichen Modellen zeigen."

Unähnlichkeit treibt Lernerfolg beim Training

In einem zweiten Experiment untersuchte das Team, was passiert, wenn man ein leistungsfähiges Modell auf den Ausgaben eines schwächeren Modells trainiert. Diese sogenannten synthetischen Daten spielen schon länger eine Rolle, um dem wachsenden Bedarf an Trainingsmaterial nachzukommen. Hier zeigte sich: Je unähnlicher sich die beiden Modelle waren, desto mehr profitierte das stärkere Modell vom Training auf den generierten Inhalten des schwächeren Modells.

Der Grund dafür ist laut den Forscher:innen, dass unähnliche Modelle über komplementäres Wissen verfügen. Dieses Potenzial werde beim Training besser ausgeschöpft. Die Studie liefert damit auch neue Erkenntnisse darüber, warum die Leistungssteigerung bei solchen "Weak-to-Strong"-Ansätzen von Aufgabe zu Aufgabe variiert.

Wachsende Ähnlichkeit der Fehler birgt Sicherheitsrisiken

Problematisch ist jedoch der generelle Trend, den die Forschenden bei der Analyse von über 130 Sprachmodellen entdeckten: Mit zunehmender Leistungsfähigkeit der Modelle werden auch deren Fehler immer ähnlicher. Das ist vor allem dann problematisch, wenn wir uns bei der Bewertung und Kontrolle von KI-Systemen immer mehr auf KI verlassen.

"Unsere Ergebnisse deuten auf das Risiko hin, dass bei der KI-Aufsicht durch KI gemeinsame blinde Flecken und Ausfallmodi auftreten, was für die Sicherheit bedenklich ist", warnen die Wissenschaftler:innen.

Empfehlung

Die Forscher:innen plädieren deshalb dafür, der Ähnlichkeit von KI-Modellen und der Diversität in ihren Fehlern mehr Beachtung zu schenken. Eine Forschungslücke sehen sie noch bei der Erweiterung ihrer Metrik auf Freitext- sowie Reasoning-Antworten großer Sprachmodelle.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher entwickeln eine neue Metrik namens CAPA (Chance Adjusted Probabilistic Agreement), die misst, wie ähnlich sich Sprachmodelle in ihren Fehlern sind. Dies ist relevant, wenn KI-Systeme zur Bewertung und Kontrolle anderer KI eingesetzt werden.
  • Experimente zeigen, dass KI-Modelle als "Richter" dazu neigen, Modelle mit ähnlichen Fehlern besser zu bewerten. Beim Training profitieren leistungsfähigere Modelle hingegen mehr von Daten unähnlicher, schwächerer Modelle.
  • Mit zunehmender Leistungsfähigkeit werden die Fehler von Sprachmodellen immer ähnlicher. Das birgt Sicherheitsrisiken, wenn KI-Systeme zur Aufsicht anderer KI verwendet werden, da gemeinsame blinde Flecken auftreten können.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!