Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forscher der Tsinghua Universität, des Shanghai Artificial Intelligence Laboratory und 01.AI haben ein neues Framework namens OpenChat entwickelt, um Open-Source-Sprachmodelle mit gemischter Datenqualität zu verbessern.

Open-Source-Sprachmodelle wie LLaMA und LLaMA2, die es jedermann ermöglichen, den Programmcode einzusehen und zu verstehen, werden häufig durch spezielle Techniken wie Supervised Fine-Tuning (SFT) und Reinforcement Learning Fine-Tuning (RLFT) verfeinert und optimiert.

Diese Techniken gehen jedoch häufig davon aus, dass alle verwendeten Daten von gleicher Qualität sind. In der Praxis besteht ein Datensatz jedoch oft aus einer Mischung von optimalen und relativ schlechten Daten. Das kann sich negativ auf die Leistung von Sprachmodellen auswirken.

Um dieses Problem zu lösen, verwendet OpenChat eine neue Methode namens Conditioned-RLFT (C-RLFT). Diese Methode behandelt verschiedene Datenquellen als verschiedene Klassen, die als grobe Belohnungslabel dienen, ohne dass bevorzugte Daten speziell gelabelt werden müssen.

Anzeige
Anzeige

Vereinfacht ausgedrückt lernt das System, dass einige Daten exzellent sind, während andere relativ schlecht sind, und gewichtet sie entsprechend, ohne dass die Daten explizit gekennzeichnet werden müssen.

Bild: Wang et al.

Da keine komplexen Verfahren des Reinforcement Learning oder teures menschliches Feedback nötig sind, ist C-RLFT relativ einfach zu implementieren. Den Forschern zufolge genügt ein einstufiges, RL-freies überwachtes Lernen, bei dem die KI aus wenigen Beispielen mit richtigen Antworten lernt, ohne auf Versuch-und-Irrtum-Methoden wie beim Reinforcement Learning zurückgreifen zu müssen. Das spart Zeit und Rechenleistung.

C-RLFT sorgt für hohe Benchmark-Performance

Gegenüber anderen Verfahren hat C-RLFT mehrere Vorteile. Es ist weniger abhängig von der Datenqualität, da es mit einer Mischung aus guten und schlechten Daten arbeiten kann. Die Methode ist einfacher zu implementieren als andere, da sie keine aufwendigen Lern- und Evaluierungsprozesse erfordert, und sie ist robust, da sie gezielt unterschiedliche Datenqualitäten nutzt. Da das Verfahren nicht auf teures menschliches Feedback angewiesen ist, ist C-RLFT auch kosteneffizient.

In ersten Tests schneidet das mit C-RLFT verfeinerte OpenChat-13b-Modell besser ab als alle anderen getesteten Sprachmodelle und kann sogar deutlich größere Modelle wie Llama 2 70B im MT-bench übertreffen.

Bild: Wang et al.

Die Benchmarks oben stammen aus dem C-RLFT-Paper von Ende September. Das Anfang November veröffentlichte Modell OpenChat-3.5-7B-Modell mit 8K-Kontextfenster soll laut des Forschungsteams sogar ChatGPT in einigen Benchmarks übertreffen.

Empfehlung
Bild: Wang et al.

Die Forscher sehen noch Raum für Verbesserungen. So könnte beispielsweise die Verteilung der Belohnungen auf die verschiedenen Datenquellen weiter verfeinert werden. Außerdem könnte die Methode in Zukunft auch eingesetzt werden, um die Fähigkeiten von Sprachmodellen in anderen Bereichen zu verbessern, zum Beispiel beim logischen Schlussfolgern.

Das OpenChat-System und alle damit verbundenen Daten und Modelle sind auf Github öffentlich zugänglich. Eine Online-Demo ist hier zugänglich. Die OpenChat-v3-Modelle basieren auf Llama und sind nach der Llama-Lizenz kommerziell nutzbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben ein neues Framework namens OpenChat entwickelt, um Open-Source-Sprachmodelle mit gemischter Datenqualität durch eine Methode namens Conditioned-RLFT (C-RLFT) zu verbessern.
  • C-RLFT behandelt verschiedene Datenquellen als unterschiedliche Klassen, die als grobe Belohnungslabels dienen, ohne dass die bevorzugten Daten speziell gekennzeichnet werden müssen, was die Implementierung einfacher und billiger macht.
  • In ersten Tests schnitt das mit C-RLFT verfeinerte OpenChat-Modell mit 13 Milliarden Parametern besser ab als andere getestete, deutlich größere Sprachmodelle. Ein neues 7B-Modell soll in Benchmarks teilweise an ChatGPT heranreichen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!