Inhalt
summary Zusammenfassung

FlexOlmo zeigt, dass gemeinsames KI-Training auf lokalen Datensätzen möglich ist, ohne dass Datenbesitzer:innen ihre Informationen teilen müssen.

Anzeige

Organisationen in regulierten Branchen besitzen oft wertvolle Daten für das Training von Sprachmodellen, können diese aber nicht extern teilen. Das Allen Institute for AI hat mit FlexOlmo eine Alternative entwickelt, die diese Probleme umgeht.

Mixture-of-Experts mit unabhängigem Training

FlexOlmo verwendet eine Mixture-of-Experts Architektur, bei der jeder Experte unabhängig auf geschlossenen Datensätzen trainiert wird, ohne dass die Rohdaten geteilt werden müssen. Alle Datenbesitzer:innen trainieren ihr eigenes Experten-Modul lokal und tragen nur die trainierten Modellgewichte zum gemeinsamen System bei.

Das Hauptproblem beim unabhängigen Training verschiedener Experten liegt in der späteren Koordination. FlexOlmo löst dies durch ein gefrorenes öffentliches Modell, das als Referenzpunkt für alle Experten dient.

Anzeige
Anzeige

Während des Trainings bleibt dieser öffentliche Experte unverändert, während der neue Experte auf dem lokalen Datensatz trainiert wird. Dadurch lernen alle Experten, mit demselben Referenzmodell zu arbeiten und können später ohne zusätzliches Training zusammengeführt werden.

Flexible Datennutzung

FlexOlmo eignet sich besonders für Szenarien mit privilegierten Zugriffen, weil sich bestimmte Datenquellen je nach Anwendungskontext deaktivieren lassen. Toxische Inhalte könnten beispielsweise für Forschungszwecke aktiviert, aber für allgemeine Anwendungen ausgeschaltet werden.

Die Forschenden demonstrierten diese Flexibilität, indem sie in einem Test den News-Experten entfernten. Die Leistung bei News-Aufgaben sank erwartungsgemäß, während andere Bereiche weitgehend unbeeinträchtigt blieben.

Balkendiagramm: Performance (%) auf NewsG, MC9, Code und Math2 im Full-8-Expert-Modell vs. ohne News-Expert.
Ohne News-Experten sinkt die Performance im News-Benchmark sichtlich, in anderen bleibt sie beinahe unverändert. | Bild: Shi et al.

Auch bei sich ändernden Lizenzbestimmungen oder ablaufenden Nutzungsrechten können Datenquellen nachträglich deaktiviert werden, ohne das gesamte Modell neu trainieren zu müssen.

Deutliche Leistungsverbesserungen in Tests

Die Wissenschaftler:innen testeten FlexOlmo mit einem Korpus aus öffentlichen Daten und sieben spezialisierten Datensätzen: News, Creative Writing, Code, Academic Papers, Educational Text, Math und Reddit-Inhalte. Das finale Modell verfügt über 37 Milliarden Parameter, von denen 20 Milliarden aktiv sind.

Empfehlung

Bei Tests auf 31 generellen und spezialisierten Aufgaben erreichte FlexOlmo eine durchschnittliche Verbesserung von 41 Prozent gegenüber dem nur auf öffentlichen Daten trainierten Modell.

Im Vergleich mit einem hypothetischen Modell, das Zugriff auf alle Daten hatte, schnitt FlexOlmo in generellen Benchmarks bei gleichem Rechenaufwand sogar besser ab. Lediglich ein Modell, das mit doppeltem Aufwand auf dem gesamten Datensatz trainiert wurde, erzielte eine leicht höhere Leistung.

Balkendiagramm: FlexOlmo übertrifft das öffentliche Modell ohne FlexOlmo in vier Tests, knapp unter dem 2×-FLOPs-Upperbound.
Die Architektur von FlexOlmo soll in allgemeinen Benchmarks nur leichte Leistungseinbußen zur Folge haben. | Bild: Ai2

Da Datenbesitzer:innen ihre trainierten Modellgewichte teilen, untersuchten die Forschenden auch das Risiko der Datenwiederherstellung. Bei Angriffen zur Extraktion von Trainingsdaten lag die Erfolgsrate bei niedrigen 0,7 Prozent.

Organisationen mit besonders sensiblen Daten können zusätzlich sogenanntes "Differentially Private"-Training verwenden, das formale Datenschutzgarantien bietet. Diese Methode könnten alle Parteien unabhängig anwenden. Um Ausgaben von Sprachmodellen auf ihr Trainingsmaterial zurückführen zu können, hat das Allen Institute kürzlich OLMoTRace vorgestellt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • FlexOlmo ermöglicht es, Sprachmodelle gemeinsam zu trainieren, ohne dass Datenbesitzer:innen ihre Rohdaten teilen müssen. Stattdessen werden unabhängig trainierte Experten-Module lokal erstellt und nur deren Modellgewichte in das gemeinsame System eingebracht.
  • Die Architektur erlaubt eine flexible Steuerung, welche Datenquellen im Modell aktiv sind. So können beispielsweise bestimmte Inhalte für spezielle Anwendungsfälle aktiviert oder deaktiviert werden, ohne das gesamte Modell neu zu trainieren.
  • In Tests auf 31, teilweise spezialisierten Aufgaben erzielte FlexOlmo im Schnitt 41 Prozent bessere Ergebnisse als ein Modell, das nur auf öffentlichen Daten trainiert wurde. Das Risiko, dass Trainingsdaten aus den Modellgewichten extrahiert werden, lag bei nur 0,7 Prozent.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!