Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

5. Mai 2024

Midjourney prompted by THE DECODER

Prometheus 2 ist ein frei verfügbares Sprachmodell, das andere Sprachmodelle evaluieren kann. Es schließt damit zu kommerziellen Modellen wie GPT-4 auf, die bisher häufig für solche Evaluierungen verwendet wurden.

Bisher wurden für solche Evaluierungen oft proprietäre Modelle wie GPT-4 verwendet, die jedoch nicht transparent, schwer zu kontrollieren und für viele nicht erschwinglich sind.

Prometheus 2 soll diese Lücke schließen und eine unabhängige, nachvollziehbare und detaillierte Evaluierung von Sprachmodellen für jedermann ermöglichen.

Mit Hilfe der Evaluationen können Forscher und Entwickler die Leistung ihrer Sprachmodelle objektiv messen und vergleichen.

Sie erhalten detailliertes Feedback über die Stärken und Schwächen ihres Modells und können gezielt Verbesserungen vornehmen. Auf diese Weise tragen die Evaluationen dazu bei, die Qualität und Zuverlässigkeit von Sprachmodellen kontinuierlich zu verbessern.

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Prometheus 2 kann Bewertungen ähnlich wie Menschen und GPT-4 vornehmen und beherrscht die beiden gebräuchlichsten Bewertungsmethoden: Bei der direkten Bewertung vergibt es Noten auf einer Skala, beim paarweisen Vergleich entscheidet es, welche von zwei Antworten besser ist.

Prometheus 2 kann Antworten direkt bewerten oder bei zwei Antworten die bessere auswählen. | Bild: Kim et al.

Außerdem kann es nach benutzerdefinierten Kriterien bewerten und ist nicht auf allgemeine Aspekte wie Hilfsbereitschaft und Harmlosigkeit beschränkt. Dadurch können Sprachmodelle gezielt für bestimmte Anwendungen optimiert werden.

Ein Chatbot für die medizinische Beratung kann beispielsweise auf Kriterien wie Vertrauenswürdigkeit, Empathie und fachliche Korrektheit trainiert und getestet werden. So können passgenaue und qualitativ hochwertige Sprachmodelle für unterschiedlichste Anwendungen entwickelt werden.

Ein neuer Datensatz und vermischte Gewichte

Um Prometheus 2 zu trainieren, haben die Forscher einen neuen Datensatz für paarweise Vergleiche erstellt, die sogenannte "Preference Collection". Dieser enthält mehr als 1.000 verschiedene Bewertungskriterien, die über grundlegende Eigenschaften wie Hilfsbereitschaft und Harmlosigkeit hinausgehen.

Die Forscher fanden heraus, dass die besten Ergebnisse erzielt werden, wenn zwei Modelle getrennt voneinander trainiert werden - eines für direkte Bewertungen auf der Grundlage des Datensatzes "Feedback Collection" und eines für paarweise Vergleiche auf der Grundlage des Datensatzes "Preference Collection" - und dann ihre gelernten Gewichte kombiniert werden.

In Tests mit acht verschiedenen Datensätzen (vier für direkte Bewertungen, vier für paarweise Vergleiche) erzielte Prometheus 2 von allen frei verfügbaren Bewertungsmodellen die höchste Übereinstimmung mit menschlichen Urteilen und kommerziellen Sprachmodellen. Zwar bleibt es in vielen Tests hinter GPT-4 und Claude 3 Opus zurück, kann aber die Lücke zu den proprietären Modellen deutlich schließen.

Prometheus 2 kann generierte Texte ähnlich gut bewerten wie GPT-4 und Opus 3, bietet aber eine viel höhere Transparenz und ist potenziell günstiger. Die Tabelle zeigt die Resultate bei direkten Bewertungen. | Bild: Kim et al.

Prometheus 2 ermöglicht somit eine unabhängige und transparente Bewertung von Sprachmodellen für jedermann und trägt zu mehr Fairness und Zugänglichkeit in diesem Bereich bei.

Prometheus 2 wurde von einem Forschungsteam unter der Leitung von Seungone Kim von KAIST AI (Korea Advanced Institute of Science and Technology) entwickelt. Der Code und alle Daten sind bei Github verfügbar.

Die Modelle Prometheus 2 (7B & 8x7B) gibt es bei HuggingFace. Das schnellere 7B-Modelle erreicht laut des Teams 80 Prozent der Bewertungs-Performance des 8x7B-Modells, ist auf Augenhöhe mit Mixtral-8x7B und besser als Llama 2 70B.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Ein neuer Datensatz und vermischte Gewichte

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.