Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

Prometheus 2 ist ein frei verfügbares Sprachmodell, das andere Sprachmodelle evaluieren kann. Es schließt damit zu kommerziellen Modellen wie GPT-4 auf, die bisher häufig für solche Evaluierungen verwendet wurden.

Bisher wurden für solche Evaluierungen oft proprietäre Modelle wie GPT-4 verwendet, die jedoch nicht transparent, schwer zu kontrollieren und für viele nicht erschwinglich sind.

Prometheus 2 soll diese Lücke schließen und eine unabhängige, nachvollziehbare und detaillierte Evaluierung von Sprachmodellen für jedermann ermöglichen.

Mit Hilfe der Evaluationen können Forscher und Entwickler die Leistung ihrer Sprachmodelle objektiv messen und vergleichen.

Sie erhalten detailliertes Feedback über die Stärken und Schwächen ihres Modells und können gezielt Verbesserungen vornehmen. Auf diese Weise tragen die Evaluationen dazu bei, die Qualität und Zuverlässigkeit von Sprachmodellen kontinuierlich zu verbessern.

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Prometheus 2 kann Bewertungen ähnlich wie Menschen und GPT-4 vornehmen und beherrscht die beiden gebräuchlichsten Bewertungsmethoden: Bei der direkten Bewertung vergibt es Noten auf einer Skala, beim paarweisen Vergleich entscheidet es, welche von zwei Antworten besser ist.

Prometheus 2 kann Antworten direkt bewerten oder bei zwei Antworten die bessere auswählen. | Bild: Kim et al.

Außerdem kann es nach benutzerdefinierten Kriterien bewerten und ist nicht auf allgemeine Aspekte wie Hilfsbereitschaft und Harmlosigkeit beschränkt. Dadurch können Sprachmodelle gezielt für bestimmte Anwendungen optimiert werden.

Ein Chatbot für die medizinische Beratung kann beispielsweise auf Kriterien wie Vertrauenswürdigkeit, Empathie und fachliche Korrektheit trainiert und getestet werden. So können passgenaue und qualitativ hochwertige Sprachmodelle für unterschiedlichste Anwendungen entwickelt werden.

Ein neuer Datensatz und vermischte Gewichte

Um Prometheus 2 zu trainieren, haben die Forscher einen neuen Datensatz für paarweise Vergleiche erstellt, die sogenannte "Preference Collection". Dieser enthält mehr als 1.000 verschiedene Bewertungskriterien, die über grundlegende Eigenschaften wie Hilfsbereitschaft und Harmlosigkeit hinausgehen.

Empfehlung

KI in der Praxis

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Die Forscher fanden heraus, dass die besten Ergebnisse erzielt werden, wenn zwei Modelle getrennt voneinander trainiert werden - eines für direkte Bewertungen auf der Grundlage des Datensatzes "Feedback Collection" und eines für paarweise Vergleiche auf der Grundlage des Datensatzes "Preference Collection" - und dann ihre gelernten Gewichte kombiniert werden.

In Tests mit acht verschiedenen Datensätzen (vier für direkte Bewertungen, vier für paarweise Vergleiche) erzielte Prometheus 2 von allen frei verfügbaren Bewertungsmodellen die höchste Übereinstimmung mit menschlichen Urteilen und kommerziellen Sprachmodellen. Zwar bleibt es in vielen Tests hinter GPT-4 und Claude 3 Opus zurück, kann aber die Lücke zu den proprietären Modellen deutlich schließen.

Prometheus 2 kann generierte Texte ähnlich gut bewerten wie GPT-4 und Opus 3, bietet aber eine viel höhere Transparenz und ist potenziell günstiger. Die Tabelle zeigt die Resultate bei direkten Bewertungen. | Bild: Kim et al.

Prometheus 2 ermöglicht somit eine unabhängige und transparente Bewertung von Sprachmodellen für jedermann und trägt zu mehr Fairness und Zugänglichkeit in diesem Bereich bei.

Prometheus 2 wurde von einem Forschungsteam unter der Leitung von Seungone Kim von KAIST AI (Korea Advanced Institute of Science and Technology) entwickelt. Der Code und alle Daten sind bei Github verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Modelle Prometheus 2 (7B & 8x7B) gibt es bei HuggingFace. Das schnellere 7B-Modelle erreicht laut des Teams 80 Prozent der Bewertungs-Performance des 8x7B-Modells, ist auf Augenhöhe mit Mixtral-8x7B und besser als Llama 2 70B.

Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Ein neuer Datensatz und vermischte Gewichte

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Perplexity soll jetzt 18 Milliarden Dollar wert sein

OpenAI-Chef warnt vor dem Einsatz von ChatGPT-Agent für wichtige Aufgaben

Meta wirbt erneut Top-KI-Forscher von Apple ab - Millionen-Gehälter locken

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

Prometheus 2 schließt die Lücke zu proprietären Bewertungen

Ein neuer Datensatz und vermischte Gewichte

Artikel teilen

Bankverbindung