Inhalt
summary Zusammenfassung

Bisher gab es keine einfache Möglichkeit, die Qualität von Open-Source-Modellen zu vergleichen. Ein System aus dem E-Sport könnte helfen.

Die "Large Model System Organization" (LMSYS), die hinter dem Open-Source-Modell Vicuna steckt, hat die Benchmark-Plattform "Chatbot Arena" gestartet, um die Leistung großer Sprachmodelle zu vergleichen.

Auf dieser Plattform treten verschiedene Modelle in anonymen, zufällig ausgewählten Duellen gegeneinander an. Anschließend bewerten die Nutzer:innen die Modelle und stimmen für ihre bevorzugte Antwort ab.

Bild: LMSYS/Screenshot

Anhand dieser Bewertungen werden die Modelle nach dem Elo-Bewertungssystem eingestuft, das etwa im Schach und vor allem im E-Sport weit verbreitet ist. Die Nutzer:innen dürfen prinzipiell alles fragen und auch längere Gespräche führen, allerdings nicht direkt nach dem Namen des Modells fragen - das disqualifiziert ihre Stimme für das Ranking.

Anzeige
Anzeige

GPT-4 mit höchster Elo

Nach dieser Methode führt derzeit GPT-4 die Rangliste an, dicht gefolgt von Claude-v1, dahinter GPT-3.5 Turbo mit etwas größerem Abstand. Vicuna-13B ist das am besten bewertete Open-Source-Modell. In Zukunft wollen die Forscher:innen weitere Open- und Closed-Source-Modelle integrieren und die Rankings genauer aufschlüsseln.

Bild: LMSYS/Screenshot

Seit dem Leak von Metas Sprachmodell LLaMA sind eine Vielzahl von Open-Source-Sprachmodellen entstanden, die ähnlich wie ChatGPT im Chatbot-Stil menschlichen Anweisungen folgen und Fragen der Nutzer:innen beantworten sollen. Die Schwierigkeit besteht jedoch darin, diese Modelle effektiv zu evaluieren, insbesondere bei offenen Fragen.

Chatbots im Arena-Wettbewerb

Hier bietet die Chatbot Arena einen vielversprechenden neuen Ansatz: Das Elo-System zur Evaluierung großer Sprachmodelle wurde unter anderem bereits von Anthropic für einen Benchmark von Claude verwendet.

In der Arena stehen die Modelle in direktem Wettbewerb zueinander und die Nutzerinnen und Nutzer stimmen durch ihre Interaktionen darüber ab, welches Modell sie für das beste halten. Die Plattform sammelt alle Interaktionen der Nutzenden, verwendet aber nur die abgegebenen Stimmen, während die Modellnamen verborgen bleiben. Eine Woche nach dem Start waren laut LMSYS rund 4.700 gültige anonyme Stimmen eingegangen, Anfang Mai waren es schon rund 13.000.

Die bisherigen Ergebnisse zeigen laut LMSYS eine "substanzielle Lücke" zwischen proprietären und Open-Source-Modellen. Allerdings hätten die in der Arena vertretenen Open-Source-Modelle auch deutlich weniger Parameter, im Bereich von drei bis 14 Milliarden Parametern. GPT-4 gewinnt 82 Prozent der Duelle gegen Vicuna-13B und 80 Prozent der Duelle gegen GPT-3.5-turbo. Anthropics Claude übertrifft GPT-3.5 in der Arena und liegt gleichauf mit GPT-4.

Empfehlung

Praktisch ist neben dem Arena-Wettbewerb insbesondere der "Side-by-Side"-Modus: Hier können einzelne Open-Source-Sprachmodelle ausgewählt und gleichzeitig mit demselben Prompt gefüttert werden. So können die Ergebnisse in Echtzeit miteinander verglichen werden.

Hier geht es zur Chatbot Arena, wenn ihr euch an der Abstimmung beteiligen oder ein für euch nützliches Sprachmodell identifizieren wollt. Ähnlich funktioniert die Plattform Playground des früheren Github-CEOs Nathaniel Friedman.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Organisation hat eine digitale Arena eingerichtet, in der KI-Chatbots gegeneinander antreten.
  • Die Nutzer:innen schicken Anfragen an zwei anonyme Modelle gleichzeitig und bewerten anschließend die Ausgabe. Daraus ergibt sich ein Rankingsystem, das auf sogenannten Elo-Punkten basiert.
  • Besonders praktisch ist der Side-by-Side-Modus, in dem die Ergebnisse verschiedener Open-Source-Modelle verglichen werden können.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!