Starling-7B ist ein performantes Mini-LLM, das mit KI-Feedback trainiert wurde

Midjourney prompted by THE DECODER

Forscher der UC Berkeley stellen Starling-7B vor, ein offenes Large Language Model (LLM), das mit Reinforcement Learning from AI Feedback (RLAIF) trainiert wurde.

Reinforcement Learning from AI Feedback (RLAIF) nutzt das Feedback von KI-Modellen, um andere KI-Modelle zu trainieren und deren Leistung zu verbessern. Im Fall von Starling-7B soll RLAIF die Nützlichkeit und Sicherheit von Chatbot-Antworten erhöhen. Das Modell basiert auf einem verfeinerten Openchat 3.5, der wiederum Mistral-7B als Basis verwendet.

Das Trainingsparadigma ist unter anderem von ChatGPT bekannt, allerdings mit einem entscheidenden Unterschied: Hier verbessern Menschen den Output des KI-Modells (RLHF). Im Vergleich dazu ist das KI-Feedback billiger, schneller, wahrscheinlich transparenter und besser skalierbar - wenn es funktioniert.

Um das Modell mit RLAIF zu trainieren, erstellten die Forscher den neuen Datensatz Nectar, der aus 183.000 Chat-Prompts mit jeweils sieben Antworten besteht - insgesamt 3,8 Millionen paarweise Vergleiche. Die Antworten stammen von verschiedenen Modellen wie GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-instruct und Llama2-7B.

Wie die Forscher den Nectar-Datensatz aufbauen. | Bild: Zhu et al.

Die Qualität der synthetischen Antworten wurde von GPT-4 bewertet, wobei die Forscherinnen und Forscher einen speziellen Ansatz entwickelten, um die Vorliebe von GPT-4, die ersten und zweiten Antworten besonders positiv zu bewerten, zu umgehen.

Starling-7B erzielt starke Benchmark-Ergebnisse

Die Forscher verwendeten zwei Benchmarks, MT-Bench und AlpacaEval, die GPT-4 für die Bewertung verwenden, um die Leistung ihres Modells zu beurteilen.

Starling-7B übertrifft die meisten Modelle in MTBench mit Ausnahme von OpenAIs GPT-4 und GPT-4 Turbo und erreicht in AlpacaEval Ergebnisse auf dem Niveau kommerzieller Chatbots wie Claude 2 oder GPT-3.5.

Die Forschenden schreiben, dass RLAIF in erster Linie die Hilfsbereitschaft und die Sicherheit des Modells verbessere, nicht aber seine grundlegenden Fähigkeiten wie wissensbasierte Fragen, Mathematik oder Codierung. Diese seien statisch oder würden durch RLAIF sogar minimal verschlechtert.

Wie üblich sind die Benchmark-Ergebnisse nur begrenzt aussagekräftig. Sie sind jedoch vielversprechend für die Anwendung von RLAIF, auch wenn die Forscher einschränken, dass menschliche Beurteiler andere Präferenzen haben könnten als GPT-4, das in den oben genannten Benchmarks urteilte.

Empfehlung

KI in der Praxis

Konkurrenz für Midjourney: Ideogram stellt neues, stark verbessertes KI-Bildmodell vor

Wie andere kleine und große LLMs hat Starling-7B Schwierigkeiten mit Aufgaben, die logisches Denken oder Mathematik erfordern, und halluziniert. Außerdem ist es anfällig für Jailbreaks, da es nicht explizit für diese Szenarien trainiert wurde.

Ein nächster Schritt könnte daher sein, den Nectar-Datensatz mit qualitativ hochwertigen menschlichen Feedback-Daten zu erweitern, um das Modell noch besser an die Bedürfnisse des Menschen anzupassen.

Die Forscher veröffentlichen den Nectar-Datensatz, das damit trainierte Belohnungsmodell Starling-RM-7B-alpha und das Sprachmodell Starling-LM-7B-alpha auf HuggingFace unter einer Forschungslizenz. Code und Paper folgen in Kürze. Wer den LLM im Chatmodus testen möchte, kann dies in der Chatbot-Arena tun.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Starling-7B ist ein performantes Mini-LLM, das mit KI-Feedback trainiert wurde

Starling-7B erzielt starke Benchmark-Ergebnisse

Konkurrenz für Midjourney: Ideogram stellt neues, stark verbessertes KI-Bildmodell vor

OpenAI launcht "ChatGPT Record": Audio aufnehmen, transkribieren, zusammenfassen

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Starling-7B ist ein performantes Mini-LLM, das mit KI-Feedback trainiert wurde

Starling-7B erzielt starke Benchmark-Ergebnisse

Artikel teilen

Bankverbindung