Inhalt
summary Zusammenfassung

OpenAI hat eine neue Methode entwickelt, um die Verständlichkeit und Überprüfbarkeit von KI-generierten Texten zu verbessern. Dieser Ansatz könnte dazu beitragen, das Vertrauen in KI-Systeme zu stärken und ihren Einsatz in kritischen Bereichen zu erleichtern.

Anzeige

Bei Prover-Verifier-Spielen treten zwei KI-Modelle gegeneinander an: Ein "beweisendes" Modell (Prover) generiert Lösungen für ein Problem, während ein "prüfendes" Modell (Verifier) diese Lösungen auf ihre Korrektheit hin überprüft.

Ziel ist es, das Beweismodell so zu trainieren, dass es Lösungen produziert, die für das Verifikatormodell leicht nachvollziehbar sind. Die so optimierten Lösungen sind laut OpenAI auch für Menschen leichter zu verstehen und zu verifizieren.

In der Studie verwendeten die OpenAI-Forscher ein GPT-4-Modell als Beweiser und ein deutlich schwächeres GPT-4-Modell als Verifizierer. Der Beweiser wurde abwechselnd in einer "hilfreichen" und einer "hinterhältigen" Rolle trainiert.

Anzeige
Anzeige

In der hilfreichen Rolle wurde das Modell belohnt, wenn es korrekte Lösungen produzierte, die vom Verifizierer gut bewertet wurden. In der hinterhältigen Rolle wurde es hingegen belohnt, wenn es falsche Lösungen erzeugte, die den Verifizierer täuschten.

Zu Beginn war der hinterhältige Beweiser leicht in der Lage, den Verifizierer mit falschen Lösungen zu täuschen. Doch durch das abwechselnde Training lernte der Verifizierer, auch subtile Fehler zu erkennen, sodass der Beweiser gezwungen war, in jeder Runde neue Strategien zu entwickeln. Wenn der Beweiser den Verfizierer nicht mehr täuschen kann, endet das Training.

Die Forscher testeten ihre Methode an Mathematikaufgaben für Grundschüler und stellten fest, dass ein nur auf Korrektheit optimiertes Modell zwar sehr genaue, aber schwer verständliche Lösungen erzeugte. Menschliche Prüfer machten bei der Bewertung dieser Lösungen fast doppelt so viele Fehler wie bei den Lösungen, die mit dem neuen Ansatz generiert wurden.

Die Prover-Verifier-Spiele erreichten einen guten Kompromiss zwischen Leistung und Verständlichkeit: Die Lösungen waren immer noch sehr genau, aber viel leichter zu verstehen.

Das Prover-Verifier-Modell war akkurater und leichter nachzuvollziehen als ein Standard-GPT-4. | Bild: OpenAI

Interessant könnte letztlich die Kombination aus einem robusten Verifier, der auch bei absichtlicher Täuschung sicher zwischen richtigen und falschen Lösungen unterscheiden kann, und einem hilfreichen Verifier sein, der den Menschen hilft, mögliche Fehler leichter nachzuvollziehen.

Empfehlung

Die OpenAI-Forscher sehen in dieser Methode einen vielversprechenden Ansatz für die Entwicklung von KI-Systemen, deren Ergebnisse korrekt und transparent überprüfbar sind. Dies könnte das Vertrauen in KI-Anwendungen stärken und ihren Einsatz in kritischen Bereichen wie Medizin, Finanzen oder Recht erleichtern, in denen Genauigkeit und Nachvollziehbarkeit von entscheidender Bedeutung sind.

Ein weiterer Vorteil der Methode sei, dass sie weniger auf menschliche Anleitung und Bewertung angewiesen sei. Das ist relevant für die Entwicklung superintelligenter KI-Systeme, die sich zuverlässig an menschliche Werte und Erwartungen anpassen müssen, ohne dass eine direkte menschliche Überwachung erforderlich ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI entwickelt eine neue Methode namens "Prover-Verifier Games", bei der zwei KI-Modelle gegeneinander antreten: Ein "Prover" generiert Lösungen für ein Problem, während ein "Verifier" diese Lösungen auf Korrektheit überprüft.
  • Durch abwechselndes Training in einer "hilfreichen" und einer "hinterhältigen" Rolle lernt der Beweiser, Lösungen zu erzeugen, die für den Verifizierer und Menschen leicht nachvollziehbar sind, während der Verifizierer lernt, auch subtile Fehler zu erkennen.
  • Die Forscher sehen in dieser Methode einen vielversprechenden Ansatz für die Entwicklung von KI-Systemen, deren Ergebnisse korrekt und transparent überprüfbar sind, was das Vertrauen in KI-Anwendungen stärken und ihren Einsatz in kritischen Bereichen erleichtern könnte.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!