Inhalt
summary Zusammenfassung

Die Fortschritte der Open-Source-Sprachmodelle sind unbestritten. Aber können sie wirklich für wenig Geld zu den viel teureren, lange trainierten Sprachmodellen von OpenAI, Google und Co. aufschließen?

Anzeige

Es klingt zu gut: Mit wenig Trainingsaufwand und für fast kein Geld haben nach der Alpaca-Formel trainierte Open-Source-Sprachmodelle in den vergangenen Wochen immer neue Spitzenwerte in Benchmarks erreicht.

Die Alpaca-Formel heißt: Entwickelnde nutzen mit ChatGPT generierte Instruktionsdaten, um meist das halb geleakte und halb veröffentlichte Sprachmodell LLaMA von Meta zu verfeinern. Anhand dieser Daten lernt das LLaMA-Modell innerhalb kürzester Zeit und mit wenig Rechenaufwand, ähnliche Ausgaben wie ChatGPT zu erzeugen.

Open Source Fortschritte: Mehr Schein als Sein?

Ein Google-Ingenieur schlug sogar intern Alarm wegen der wachsenden Fähigkeiten von Open-Source-Modellen und skizzierte, dass die Open-Source-Szene kommerzielle Modellanbieter wie Google überholen könnte.

Anzeige
Anzeige

Doch Forschende der Universität Berkeley kommen in einer aktuellen Studie zu einer anderen Einschätzung: Sie wendeten die Alpaca-Formel auf einige Basismodelle von LLaMA und GPT-2 an und ließen diese Ergebnisse dann von Menschen und automatisiert von GPT-4 auswerten.

Dabei kamen sie zunächst zum gleichen Ergebnis wie Entwicklerinnen und Entwickler vor ihnen: Die Ausgaben der mit Instruktionen verfeinerten Modelle, die die Forscherinnen und Forscher als "Imitationsmodelle" bezeichnen, übertrafen die des Basismodells bei weitem und lagen auf dem Niveau von ChatGPT.

Zuerst waren wir überrascht, wie sehr sich die Nachahmer im Vergleich zu ihren Basismodellen verbessert haben: Sie sind viel besser darin, Anweisungen zu befolgen, und ihre Ergebnisse scheinen denen von ChatGPT zu ähneln. Dies wurde durch menschliche und GPT-4 Evaluationen bestätigt, in denen die Ergebnisse unseres besten Imitationsmodells als konkurrenzfähig mit ChatGPT bewertet wurden.

Aus dem Paper

Das "falsche Versprechen" der Modellimitation oder: Es gibt keine Abkürzungen

Eine "gezieltere automatische Untersuchung" zeigte jedoch, dass die Imitationsmodelle tatsächlich nur in den Aufgaben gut abschnitten, für die sie Imitationsdaten gesehen hatten. In allen anderen Bereichen blieb ein deutlicher Leistungsabstand zu GPT-4 und Co. bestehen, da diese Basismodelle einen Großteil ihrer Fähigkeiten während des umfangreichen Vortrainings erwerben, nicht während des Feintunings.

Menschliche Beurteiler könnten diese Diskrepanz übersehen, da Imitationsmodelle weiterhin den selbstsicheren Stil von ChatGPT kopieren, nicht aber dessen Faktizität und Plausibilität. Einfach ausgedrückt: Imitationsmodelle lernen mehr Stil als Inhalt, und Menschen, die mit dem Inhalt nicht vertraut sind, bemerken dies nicht.

Die Antwort des Imitationsmodells liest sich plausibel, ist aber voller Fehler (rot markierter Text). Menschliche KI-Auswerter können diesen Mangel an Faktizität übersehen, solange der Stil stimmt. | Bild: Gudibande et al.

Diese so genannten Crowdworker, die KI-Inhalte häufig ohne thematisches Wissen und in kurzer Zeit bewerten, seien leicht zu täuschen. GPT-4 könne zwar in einigen Bereichen menschliche Gutachter emulieren, zeige aber menschenähnliche kognitive Verzerrungen. Dies müsse weiter erforscht werden.

Empfehlung

Das Fazit der Forschenden: Um die Schwächen der Imitationsmodelle auszugleichen, brauche es eine "riesige Menge" an Imitationsdaten - oder bessere Basismodelle.

KI-Modelle und der Burggraben

Auf dem Modellmarkt seien daher die Unternehmen am besten positioniert, die ihren Modellen Fähigkeiten mit sehr großen Datenmengen, Rechenleistung und algorithmischen Vorteilen beibringen könnten. Diese hätten Wettbewerbsvorteile.

Im Gegensatz dazu hätten es Unternehmen, die "Modelle von der Stange" mit ihren eigenen Datensätzen finetunen würden, schwer, einen Burggraben aufzubauen. Zudem hätten sie keinen Einfluss auf die Design-Entscheidungen des Lehrermodells und wären nach oben durch dessen Fähigkeiten begrenzt.

Ein positiver Aspekt des Imitationslernens sei, dass bei der Übernahme des Stils auch das Verhalten in Bezug auf sichere und toxische Antworten vom Lehrerermodell übernommen werde. Daher sei Imitationslernen besonders effektiv, wenn man über ein sehr leistungsfähiges Basismodell verfüge und für dieses günstige Feintuning-Daten benötige.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch der OpenAI-Forscher John Schulman kritisierte kürzlich die Verwendung von ChatGPT-Daten für das Feintuning offen verfügbarer Basis-Sprachmodelle: Diese könnten mehr falsche Inhalte erzeugen, wenn die Feintuning-Datensätze Wissen enthalten, das im ursprünglichen Modell nicht vorhanden ist.

Hier sticht das Open-Source-Projekt OpenAssistant positiv hervor, bei dem die Datensätze von menschlichen Freiwilligen erhoben statt von KI generiert werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Open-Source-Sprachmodelle, die mit ChatGPT-Daten trainiert wurden, erzielen beeindruckende Benchmark-Ergebnisse auf dem Niveau des Lehrermodells.
  • Eine Studie aus Berkeley zeigt jedoch, dass diese "Imitationsmodelle" vor allem in den Bereichen gut abschneiden, für die sie Informationen aus den Imitationsdaten erhalten haben. In anderen Bereichen erreichen sie nicht das Niveau von Modellen wie GPT-4.
  • Die Forschenden sehen diese Imitationsmodelle daher kritisch und vermuten, dass Unternehmen mit viel Zugang zu Daten, Rechenleistung und Know-how für das originäre Training großer Modelle weiterhin einen Wettbewerbsvorteil haben.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!