Prometheus 2 ist ein frei verfügbares Sprachmodell, das andere Sprachmodelle evaluieren kann. Es schließt damit zu kommerziellen Modellen wie GPT-4 auf, die bisher häufig für solche Evaluierungen verwendet wurden.
Bisher wurden für solche Evaluierungen oft proprietäre Modelle wie GPT-4 verwendet, die jedoch nicht transparent, schwer zu kontrollieren und für viele nicht erschwinglich sind.
Prometheus 2 soll diese Lücke schließen und eine unabhängige, nachvollziehbare und detaillierte Evaluierung von Sprachmodellen für jedermann ermöglichen.
Mit Hilfe der Evaluationen können Forscher und Entwickler die Leistung ihrer Sprachmodelle objektiv messen und vergleichen.
Sie erhalten detailliertes Feedback über die Stärken und Schwächen ihres Modells und können gezielt Verbesserungen vornehmen. Auf diese Weise tragen die Evaluationen dazu bei, die Qualität und Zuverlässigkeit von Sprachmodellen kontinuierlich zu verbessern.
Prometheus 2 schließt die Lücke zu proprietären Bewertungen
Prometheus 2 kann Bewertungen ähnlich wie Menschen und GPT-4 vornehmen und beherrscht die beiden gebräuchlichsten Bewertungsmethoden: Bei der direkten Bewertung vergibt es Noten auf einer Skala, beim paarweisen Vergleich entscheidet es, welche von zwei Antworten besser ist.
Außerdem kann es nach benutzerdefinierten Kriterien bewerten und ist nicht auf allgemeine Aspekte wie Hilfsbereitschaft und Harmlosigkeit beschränkt. Dadurch können Sprachmodelle gezielt für bestimmte Anwendungen optimiert werden.
Ein Chatbot für die medizinische Beratung kann beispielsweise auf Kriterien wie Vertrauenswürdigkeit, Empathie und fachliche Korrektheit trainiert und getestet werden. So können passgenaue und qualitativ hochwertige Sprachmodelle für unterschiedlichste Anwendungen entwickelt werden.
Ein neuer Datensatz und vermischte Gewichte
Um Prometheus 2 zu trainieren, haben die Forscher einen neuen Datensatz für paarweise Vergleiche erstellt, die sogenannte "Preference Collection". Dieser enthält mehr als 1.000 verschiedene Bewertungskriterien, die über grundlegende Eigenschaften wie Hilfsbereitschaft und Harmlosigkeit hinausgehen.
Die Forscher fanden heraus, dass die besten Ergebnisse erzielt werden, wenn zwei Modelle getrennt voneinander trainiert werden - eines für direkte Bewertungen auf der Grundlage des Datensatzes "Feedback Collection" und eines für paarweise Vergleiche auf der Grundlage des Datensatzes "Preference Collection" - und dann ihre gelernten Gewichte kombiniert werden.
In Tests mit acht verschiedenen Datensätzen (vier für direkte Bewertungen, vier für paarweise Vergleiche) erzielte Prometheus 2 von allen frei verfügbaren Bewertungsmodellen die höchste Übereinstimmung mit menschlichen Urteilen und kommerziellen Sprachmodellen. Zwar bleibt es in vielen Tests hinter GPT-4 und Claude 3 Opus zurück, kann aber die Lücke zu den proprietären Modellen deutlich schließen.
Prometheus 2 ermöglicht somit eine unabhängige und transparente Bewertung von Sprachmodellen für jedermann und trägt zu mehr Fairness und Zugänglichkeit in diesem Bereich bei.
Prometheus 2 wurde von einem Forschungsteam unter der Leitung von Seungone Kim von KAIST AI (Korea Advanced Institute of Science and Technology) entwickelt. Der Code und alle Daten sind bei Github verfügbar.
Die Modelle Prometheus 2 (7B & 8x7B) gibt es bei HuggingFace. Das schnellere 7B-Modelle erreicht laut des Teams 80 Prozent der Bewertungs-Performance des 8x7B-Modells, ist auf Augenhöhe mit Mixtral-8x7B und besser als Llama 2 70B.