Inhalt
summary Zusammenfassung

Prometheus 2 ist ein frei verfügbares Sprachmodell, das andere Sprachmodelle evaluieren kann. Es schließt damit zu kommerziellen Modellen wie GPT-4 auf, die bisher häufig für solche Evaluierungen verwendet wurden.

Bisher wurden für solche Evaluierungen oft proprietäre Modelle wie GPT-4 verwendet, die jedoch nicht transparent, schwer zu kontrollieren und für viele nicht erschwinglich sind.

Prometheus 2 soll diese Lücke schließen und eine unabhängige, nachvollziehbare und detaillierte Evaluierung von Sprachmodellen für jedermann ermöglichen.

Mit Hilfe der Evaluationen können Forscher und Entwickler die Leistung ihrer Sprachmodelle objektiv messen und vergleichen.

Anzeige
Anzeige

Sie erhalten detailliertes Feedback über die Stärken und Schwächen ihres Modells und können gezielt Verbesserungen vornehmen. Auf diese Weise tragen die Evaluationen dazu bei, die Qualität und Zuverlässigkeit von Sprachmodellen kontinuierlich zu verbessern.

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Prometheus 2 kann Bewertungen ähnlich wie Menschen und GPT-4 vornehmen und beherrscht die beiden gebräuchlichsten Bewertungsmethoden: Bei der direkten Bewertung vergibt es Noten auf einer Skala, beim paarweisen Vergleich entscheidet es, welche von zwei Antworten besser ist.

Prometheus 2 kann Antworten direkt bewerten oder bei zwei Antworten die bessere auswählen. | Bild: Kim et al.

Außerdem kann es nach benutzerdefinierten Kriterien bewerten und ist nicht auf allgemeine Aspekte wie Hilfsbereitschaft und Harmlosigkeit beschränkt. Dadurch können Sprachmodelle gezielt für bestimmte Anwendungen optimiert werden.

Ein Chatbot für die medizinische Beratung kann beispielsweise auf Kriterien wie Vertrauenswürdigkeit, Empathie und fachliche Korrektheit trainiert und getestet werden. So können passgenaue und qualitativ hochwertige Sprachmodelle für unterschiedlichste Anwendungen entwickelt werden.

Ein neuer Datensatz und vermischte Gewichte

Um Prometheus 2 zu trainieren, haben die Forscher einen neuen Datensatz für paarweise Vergleiche erstellt, die sogenannte "Preference Collection". Dieser enthält mehr als 1.000 verschiedene Bewertungskriterien, die über grundlegende Eigenschaften wie Hilfsbereitschaft und Harmlosigkeit hinausgehen.

Empfehlung

Die Forscher fanden heraus, dass die besten Ergebnisse erzielt werden, wenn zwei Modelle getrennt voneinander trainiert werden - eines für direkte Bewertungen auf der Grundlage des Datensatzes "Feedback Collection" und eines für paarweise Vergleiche auf der Grundlage des Datensatzes "Preference Collection" - und dann ihre gelernten Gewichte kombiniert werden.

In Tests mit acht verschiedenen Datensätzen (vier für direkte Bewertungen, vier für paarweise Vergleiche) erzielte Prometheus 2 von allen frei verfügbaren Bewertungsmodellen die höchste Übereinstimmung mit menschlichen Urteilen und kommerziellen Sprachmodellen. Zwar bleibt es in vielen Tests hinter GPT-4 und Claude 3 Opus zurück, kann aber die Lücke zu den proprietären Modellen deutlich schließen.

Prometheus 2 kann generierte Texte ähnlich gut bewerten wie GPT-4 und Opus 3, bietet aber eine viel höhere Transparenz und ist potenziell günstiger. Die Tabelle zeigt die Resultate bei direkten Bewertungen. | Bild: Kim et al.

Prometheus 2 ermöglicht somit eine unabhängige und transparente Bewertung von Sprachmodellen für jedermann und trägt zu mehr Fairness und Zugänglichkeit in diesem Bereich bei.

Prometheus 2 wurde von einem Forschungsteam unter der Leitung von Seungone Kim von KAIST AI (Korea Advanced Institute of Science and Technology) entwickelt. Der Code und alle Daten sind bei Github verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Modelle Prometheus 2 (7B & 8x7B) gibt es bei HuggingFace. Das schnellere 7B-Modelle erreicht laut des Teams 80 Prozent der Bewertungs-Performance des 8x7B-Modells, ist auf Augenhöhe mit Mixtral-8x7B und besser als Llama 2 70B.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Prometheus 2 ist ein frei verfügbares Sprachmodell, das andere Sprachmodelle ähnlich gut bewerten kann wie kommerzielle Modelle wie GPT-4, dabei aber transparenter und potenziell günstiger ist.
  • Das Modell wurde mit zwei getrennten Datensätzen trainiert - einem für direkte Bewertungen und einem für paarweise Vergleiche. Durch Kombination der gelernten Gewichte erzielten die Forscher die besten Ergebnisse.
  • In Tests mit acht Datensätzen erzielte Prometheus 2 von allen frei verfügbaren Modellen die höchste Übereinstimmung mit menschlichen Urteilen. Es ermöglicht somit eine unabhängige und detaillierte Evaluierung von Sprachmodellen für jedermann.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!