Inhalt
summary Zusammenfassung

Update vom 10. September 2024:

Anzeige

Die Veröffentlichung von Reflection 70B ging mit großen Versprechungen einher, die sich bislang nicht von Dritten bestätigen ließen. Laut der Vergleichsplattform Artificial Analysis schnitt Reflection 70B in Benchmarks sogar schlechter als LLaMA-3.1-70B ab, auf dem es eigentlich basieren soll.

CEO Matt Shumer, der laut Hinweis auf der Demo-Seite des Chatbots offenbar höchstpersönlich für das Modelltraining verantwortlich ist, hatte sich am Samstag zu den schlechten Benchmarkergebnissen geäußert.

Demnach sei es zu Problemen beim Upload der Modellgewichte zu Hugging Face gekommen. Die für die Reflection-API genutzten Gewichte seien "ein Mix von ein paar verschiedenen Modellen". Ihr intern gehostetes Modell zeige bessere Ergebnisse.

Anzeige
Anzeige
Bild: @ArtificialAnlys/X

Kurz darauf stellte er ausgewählten Leuten eine exklusive Schnittstelle zu "seinem" Modell zur Verfügung. Artificial Analysis wiederholte den Test und konnte nach eigenen Aussagen bessere Ergebnisse als mit der öffentlichen API erzielen. Auf welches Modell sie jedoch dabei zugegriffen haben, konnten sie nicht mit Sicherheit sagen.

Seitdem wurden neue Reflection-Modellgewichte auf Hugging Face hochgeladen, die jedoch in Tests deutlich schlechter abschnitten als das zuvor über die private API zur Verfügung gestellte Modell. Außerdem fanden User Hinweise darauf, dass die Reflection-API zumindest zeitweise Anthropic Claude 3.5 Sonnet aufrief.

Für diese Woche hatte OthersideAI bereits die Veröffentlichung eines noch größeren und leistungsfähigeren Modells auf Basis von LLaMA 3.1 450B angekündigt. Dieses soll laut Shumer nicht nur das beste Open-Source-Modell, sondern auch das beste Sprachmodell überhaupt sein (siehe unten).

Auf die Kritik an Reflection 70B und den von ihm ausgelösten Wirbel hat Shumer bisher nicht erneut reagiert.

Benchmarks können leicht manipuliert werden

Jim Fan, KI-Forscher bei Nvidia, erklärt wahrscheinlich im Zusammenhang mit dieser Geschichte, wie einfach es ist, LLM-Benchmarks wie MMLU, GSK-8K und HumanEval zu manipulieren. Laut Fan ist die Manipulation so einfach, dass sie sich als Hausaufgabe für Studierende eignet.

Empfehlung

Modelle können mit paraphrasierten oder neu generierten Fragen trainiert werden, die den Testfragen ähneln. Auch Prompt-Engineering und mehr Rechenleistung bei der Inferenz verbessern die Ergebnisse.

Fan hält diese Benchmarks daher für unzuverlässig und empfiehlt stattdessen den Chatbot Arena von LMSy, bei dem Menschen im Blindtest LLM-Ergebnisse bewerten, oder private Benchmarks von Drittanbietern wie Scale AI. Nur so könnten überlegene Modelle zuverlässig identifiziert werden.

Ursprünglicher Artikel vom 6. September 2024:

Start-up will das weltweit stärkste KI-Modell auf den Markt bringen - als Open Source

Das KI-Start-up OthersideAI hat mit Reflection 70B ein neues Sprachmodell veröffentlicht, das mit einer speziellen Trainingsmethode namens "Reflection-Tuning" optimiert wurde. Nächste Woche soll mit Reflection 405B das nach Angaben der Entwickler weltweit leistungsfähigste KI-Modell folgen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das Unternehmen OthersideAI hat ein neues Sprachmodell namens Reflection 70B basierend auf Llama 3 veröffentlicht, das laut Gründer Matt Shumer das derzeit stärkste frei verfügbare Modell ist. Es soll sogar mit den besten geschlossenen Modellen wie Claude 3.5 Sonnet und GPT-4o mithalten können.

In Benchmarks wie MMLU, MATH, IFEval und GSM8K erzielt Reflection 70B Bestwerte und übertrifft GPT-4o in allen getesteten Bereichen. Auch gegenüber Llama 3.1 405B soll das Modell klar überlegen sein.

Bild: Reflection

Neues "Reflection-Tuning" soll KI-Modellleistung verbessern

Möglich macht dies laut Shumer eine neue Trainingsmethode namens "Reflection-Tuning". Dabei lernen die Modelle in einem zweistufigen Prozess, ihre eigenen Fehler zu erkennen und zu korrigieren, bevor sie eine finale Antwort ausgeben.

In einem ersten Schritt erzeugt das Modell eine vorläufige Antwort. Anschließend wird diese Antwort reflektiert, mögliche Fehler oder Inkonsistenzen identifiziert und eine korrigierte Version generiert.

Bisherige Sprachmodelle neigen dazu, Sachverhalte zu "halluzinieren" und können dies nicht erkennen. Reflection 70B soll durch den Reflexionsprozess in der Lage sein, solche Fehler selbstständig zu korrigieren.

Der Screenshot demonstriert die Aufgabe, die Anzahl der Buchstaben "r" im Wort "Strawberry" zu zählen. Hier erkennt das Modell in der Reflexionsphase seinen anfänglichen Fehler und korrigiert die Antwort von 2 auf 3 "r". Mit solchen Beispielen fütterte Shumer das Reflection-Modell. | Bild: Matt Shumer

Zusätzlich trennt Reflection-Tuning die Planungsphase von der Antwortgenerierung, was die Wirksamkeit des "Chain-of-Thought Prompting" verbessern und die Ausgaben für Endnutzer einfach und präzise halten soll.

Anzeige
Anzeige
Die Frage lautet: "Welcher Planet ist der Sonne am nächsten?" In der vorläufigen Antwort gibt das Modell fälschlicherweise an, dass die Venus der sonnennächste Planet sei. Während der Reflexion erkennt das Modell jedoch, dass Merkur der Sonne am nächsten ist, nicht die Venus. Entsprechend korrigiert es seine Antwort in der finalen Ausgabe und nennt Merkur als den korrekten Planeten. | Bild: Matt Shumer

Glaive AI lieferte die synthetischen Trainingsdaten für Reflection. Um eine Verfälschung der Benchmarks auszuschließen, wurde Reflection 70B mit dem "LLM Decontaminator" von Lmsys auf Überlappungen mit den Testdatensätzen überprüft.

Die Gewichte des 70-Milliarden-Parameter-Modells sind ab sofort auf der Plattform Hugging Face verfügbar. Später soll noch eine API von Hyperbolic Labs folgen. In der kommenden Woche will OthersideAI mit Reflection 405B ein noch größeres Modell veröffentlichen und einen Bericht mit weiteren Details zum Verfahren und den Ergebnissen vorlegen. Eine Demo ist online verfügbar.

Mit Reflection 405B erwartet Shumer nächste Woche ein Modell, das Sonnet und GPT-4o deutlich übertreffen soll. Doch dies sei nur der Anfang: Er habe bereits weitere Ideen, um noch bessere Sprachmodelle zu entwickeln, gegen die Reflection 70B "wie ein Spielzeug wirken werde".

Ob sich diese Prognosen und Shumers Methode am Markt behaupten können, muss sich zeigen. Die Ergebnisse des Benchmarks entsprechen nicht den tatsächlichen Nutzungserfahrungen. Es ist unwahrscheinlich, aber nicht ausgeschlossen, dass ein kleines Start-up eine neue Methode zum Feintuning entdeckt, die die großen KI-Labore bisher nicht auf dem Schirm haben.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das KI-Start-up OthersideAI hat mit Reflection 70B ein neues Sprachmodell veröffentlicht, das laut Gründer Matt Shumer das derzeit stärkste frei verfügbare Modell ist und sogar mit den besten geschlossenen Modellen mithalten kann.
  • Eine neue Trainingsmethode namens "Reflection-Tuning" ermöglicht es dem Modell, eigene Fehler zu erkennen und zu korrigieren sowie Planungs- und Antwortphase zu trennen, was zu präziseren Ausgaben führen soll.
  • Die Gewichte des 70-Milliarden-Parameter-Modells sind auf Hugging Face verfügbar. Unabhängige Tests konnten jedoch bisher nicht nachweisen, dass Reflection 70B tatsächlich so gut ist, wie Shumer es gemessen haben will.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Co-Autor: Jonathan Kemper
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!