Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forscher der UC Berkeley stellen Starling-7B vor, ein offenes Large Language Model (LLM), das mit Reinforcement Learning from AI Feedback (RLAIF) trainiert wurde.

Reinforcement Learning from AI Feedback (RLAIF) nutzt das Feedback von KI-Modellen, um andere KI-Modelle zu trainieren und deren Leistung zu verbessern. Im Fall von Starling-7B soll RLAIF die Nützlichkeit und Sicherheit von Chatbot-Antworten erhöhen. Das Modell basiert auf einem verfeinerten Openchat 3.5, der wiederum Mistral-7B als Basis verwendet.

Das Trainingsparadigma ist unter anderem von ChatGPT bekannt, allerdings mit einem entscheidenden Unterschied: Hier verbessern Menschen den Output des KI-Modells (RLHF). Im Vergleich dazu ist das KI-Feedback billiger, schneller, wahrscheinlich transparenter und besser skalierbar - wenn es funktioniert.

Um das Modell mit RLAIF zu trainieren, erstellten die Forscher den neuen Datensatz Nectar, der aus 183.000 Chat-Prompts mit jeweils sieben Antworten besteht - insgesamt 3,8 Millionen paarweise Vergleiche. Die Antworten stammen von verschiedenen Modellen wie GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-instruct und Llama2-7B.

Anzeige
Anzeige
Wie die Forscher den Nectar-Datensatz aufbauen. | Bild: Zhu et al.

Die Qualität der synthetischen Antworten wurde von GPT-4 bewertet, wobei die Forscherinnen und Forscher einen speziellen Ansatz entwickelten, um die Vorliebe von GPT-4, die ersten und zweiten Antworten besonders positiv zu bewerten, zu umgehen.

Starling-7B erzielt starke Benchmark-Ergebnisse

Die Forscher verwendeten zwei Benchmarks, MT-Bench und AlpacaEval, die GPT-4 für die Bewertung verwenden, um die Leistung ihres Modells zu beurteilen.

Starling-7B übertrifft die meisten Modelle in MTBench mit Ausnahme von OpenAIs GPT-4 und GPT-4 Turbo und erreicht in AlpacaEval Ergebnisse auf dem Niveau kommerzieller Chatbots wie Claude 2 oder GPT-3.5.

Bild: Zhu et al.

Die Forschenden schreiben, dass RLAIF in erster Linie die Hilfsbereitschaft und die Sicherheit des Modells verbessere, nicht aber seine grundlegenden Fähigkeiten wie wissensbasierte Fragen, Mathematik oder Codierung. Diese seien statisch oder würden durch RLAIF sogar minimal verschlechtert.

Bild: Zhu et al.

Wie üblich sind die Benchmark-Ergebnisse nur begrenzt aussagekräftig. Sie sind jedoch vielversprechend für die Anwendung von RLAIF, auch wenn die Forscher einschränken, dass menschliche Beurteiler andere Präferenzen haben könnten als GPT-4, das in den oben genannten Benchmarks urteilte.

Empfehlung

Wie andere kleine und große LLMs hat Starling-7B Schwierigkeiten mit Aufgaben, die logisches Denken oder Mathematik erfordern, und halluziniert. Außerdem ist es anfällig für Jailbreaks, da es nicht explizit für diese Szenarien trainiert wurde.

Ein nächster Schritt könnte daher sein, den Nectar-Datensatz mit qualitativ hochwertigen menschlichen Feedback-Daten zu erweitern, um das Modell noch besser an die Bedürfnisse des Menschen anzupassen.

Die Forscher veröffentlichen den Nectar-Datensatz, das damit trainierte Belohnungsmodell Starling-RM-7B-alpha und das Sprachmodell Starling-LM-7B-alpha auf HuggingFace unter einer Forschungslizenz. Code und Paper folgen in Kürze. Wer den LLM im Chatmodus testen möchte, kann dies in der Chatbot-Arena tun.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der UC Berkeley präsentieren Starling-7B, ein mit Reinforcement Learning from AI Feedback (RLAIF) trainiertes LLM, das auf Openchat 3.5 und Mistral-7B basiert.
  • Im Gegensatz zu menschlichem Feedback ist KI-Feedback kostengünstiger, schneller, transparenter und besser skalierbar. Starling-7B basiert auf dem Nectar-Datensatz, der aus 183.000 Chat-Prompts und 3,8 Millionen paarweisen Vergleichen besteht.
  • Starling-7B zeigt vielversprechende Benchmark-Ergebnisse. Der nächste Schritt könnte die Erweiterung des Nectar-Datensatzes mit qualitativ hochwertigen menschlichen Feedback-Daten sein, um das Modell besser an die menschlichen Bedürfnisse anzupassen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!