Inhalt
summary Zusammenfassung

Die Stable-Diffusion-Firma Stability AI veröffentlicht zusammen mit CarperAI zwei neue große Sprachmodelle. Eines davon basiert auf Metas Llama v2, verbessert dessen Leistung und zeigt, wie schnell Open-Source-Entwicklung sein kann.

Anzeige

Beide FreeWilly Modelle basieren auf Metas Llama Modellen, wobei FreeWilly2 bereits das neuere Llama-2 Modell mit 70 Milliarden Parametern als Basis verwendet. Die Eigenleistung des FreeWilly-Teams ist das "sorgfältige Feintuning" mit einem neuen synthetischen Datensatz, der mit "qualitativ hochwertigen Instruktionen" generiert wurde.

Vom Großen zum Kleinen

Das Team nutzte die von Microsoft eingeführte "Orca-Methode", bei der ein kleines Modell den schrittweisen Argumentationsprozess eines großen Sprachmodells lernen soll, anstatt nur dessen Ausgabestil zu imitieren. Dazu erstellten die Microsoft-Forscherinnen und -Forscher einen Trainingsdatensatz mit dem größeren Modell, in diesem Fall GPT-4, der dessen schrittweise Argumentationsprozesse enthält.

Ziel solcher Experimente ist es, kleine KI-Modelle zu entwickeln, die ähnlich leistungsfähig sind wie große - eine Art Lehrer-Schüler-Prinzip. Orca übertrifft in einigen Tests Modelle ähnlicher Größe, kann aber nicht mit den Originalmodellen mithalten.

Anzeige
Anzeige

Das FreeWilly-Team gibt an, dass es mit den von ihnen gewählten Prompts und Sprachmodellen einen Datensatz mit 600.000 Datenpunkten erstellt hat, also nur etwa zehn Prozent des Datensatzes, den das Orca-Team verwendet hat. Dies reduziert den Trainingsaufwand erheblich und verbessert damit die Umweltfreundlichkeit des Modells.

Vanilla-Llama v2 bereits überholt

In gängigen Benchmarks erreicht das so trainierte Modell FreeWilly in einigen logischen Aufgaben Ergebnisse auf dem Niveau von ChatGPT, wobei das auf Llama 2 basierende Modell FreeWilly 2 deutlich vor FreeWilly 1 liegt.

Bild: Stability AI

Im Durchschnitt aller Benchmarks liegt FreeWilly 2 etwa vier Punkte vor Llama v2, ein erster Hinweis darauf, dass das neue Standardmodell von Meta noch Luft nach oben hat und die Open-Source-Gemeinschaft helfen kann, diese auszuschöpfen.

Insgesamt steht FreeWilly 2 derzeit an der Spitze der leistungsfähigsten Open-Source-Modelle, wobei das ursprüngliche Llama 2 im wichtigen allgemeinen Sprachverständnis-Benchmark MMLU noch leicht vorn liegt.

FreeWilly1 und FreeWilly2 setzen einen neuen Standard im Bereich frei zugänglicher großer Sprachmodelle. Beide bringen die Forschung erheblich voran, verbessern das Verständnis natürlicher Sprache und ermöglichen komplexe Aufgaben.

Carper AI, Stability AI

Die FreeWilly Modelle sind für Forschungszwecke entwickelt und unter einer nicht-kommerziellen Lizenz veröffentlicht. Sie können hier bei HuggingFace heruntergeladen werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI und CarperAI haben zwei neue große Sprachmodelle veröffentlicht: FreeWilly2 basiert auf dem LLamA-2-Modell von Meta mit 70 Milliarden Parametern und wurde durch "sorgfältiges Feintuning" optimiert.
  • Das Team verwendete Microsofts "Orca"-Methode, mit der kleinere KI-Modelle so leistungsfähig wie große Sprachmodelle entwickelt werden können, indem sie schrittweise von diesen lernen.
  • Die FreeWilly-Modelle sind für Forschungszwecke frei zugänglich, verbessern nach Angaben des Teams das maschinelle Verständnis natürlicher Sprache und ermöglichen komplexe Aufgaben, wobei FreeWilly2 als das leistungsfähigste Open-Source-Modell gilt.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!