Inhalt
summary Zusammenfassung

Forschende haben Text-to-LoRA entwickelt, das Anpassungsmodule für Large Language Models automatisch erstellt. Eine einfache Textbeschreibung der gewünschten Aufgabe soll ausreichen.

Anzeige

Große Sprachmodelle werden oft mit effizienten Methoden wie LoRA (Low-Rank Adaptation) an bestimmte Aufgaben angepasst. Dafür braucht man jedoch für jede neue Aufgabe eigene Trainingsdaten, passende Einstellungen, sogenannte Hyperparameter.

Diese legen zum Beispiel fest, wie schnell das Modell lernt oder wie oft es durch die Daten geht. Damit das Modell gute Ergebnisse liefert, müssen diese Einstellungen sorgfältig angepasst werden; ein zeitaufwendiger und rechenintensiver Prozess.

Text-to-LoRA (T2L) von dem japanischen KI-Start-up Sakana AI soll genau diesen Schritt automatisieren und damit die Anpassung deutlich vereinfachen.

Anzeige
Anzeige

Video: Sakana AI

LoRA-Adapter als effiziente Spezialisierungsmethode

LoRA-Adapter passen das Verhalten großer Sprachmodelle an, indem sie kleine, sogenannte niedrig-rangige Matrizen zu bestimmten Schichten des Modells hinzufügen. Im Vergleich zum vollständigen Fine-Tuning ist diese Methode viel effizienter, da nur wenige Millionen statt Milliarden von Modellparametern verändert werden müssen.

Text-to-LoRA (T2L) nutzt dafür ein sogenanntes Hypernetwork, ein lernendes System, das auf 479 Aufgaben aus dem Super Natural Instructions Dataset trainiert wurde. Dieses System hat gelernt, wie sich Aufgabenbeschreibungen mit passenden LoRA-Einstellungen (Adaptern) verknüpfen lassen. Für eine neue Aufgabe kann es so in nur einem Rechenschritt die passenden LoRA-Gewichte erzeugen, selbst wenn es diese Aufgabe noch nie gesehen hat.

Mistral-7B-Antworten auf eine GSM8K-Schafzählaufgabe: Basismodell und Low-Quality-LoRA falsch, task-aligned LoRAs korrekt.
Generische oder unpräzise Aufgabenbeschreibungen erzeugen mit T2L-LoRAs auf Mistral-7B falsche GSM8K-Antworten, während präzise, aufgabenorientierte Beschreibungen korrekte Lösungen mit unterschiedlichen Rechenwegen liefern und so die Steuerbarkeit von T2L demonstrieren. | Bild: Sakana AI

Sakana AI hat drei Architekturvarianten entwickelt: T2L-L mit 55 Millionen Parametern generiert beide LoRA-Matrizen (A und B) simultan, T2L-M mit 34 Millionen teilt sich eine Ausgabeschicht für beide Matrizen, während T2L-S mit 5 Millionen Parametern nur einzelne Ränge der Matrizen erzeugt.

Supervised Fine-Tuning übertrifft Rekonstruktionstraining

Die Forscher:innen verglichen zwei Trainingsmethoden für T2L: Beim Rekonstruktionstraining lernt das System, bereits existierende LoRA-Adapter nachzubilden. Beim Supervised Fine-Tuning (SFT) wird T2L hingegen direkt auf die Zielaufgaben trainiert.

Empfehlung
Vergleich T2L-Performance: Rekonstruktionstraining 61,8 % vs. Supervised Fine-Tuning 66,3 % (Zero-Shot-Durchschnitt).
SFT-trainierte T2L-Modelle steigern die durchschnittliche Zero-Shot-Performance. | Bild: Sakana AI

Die Ergebnisse zeigen klare Vorteile für SFT: Während rekonstruktionstrainierte Modelle im Schnitt 61,8 Prozent der Benchmark-Leistung erreichten, kamen SFT-Modelle auf 66,3 Prozent. Die Forschenden erklären das damit, dass SFT ähnliche Aufgaben automatisch gruppieren kann, während Rekonstruktion auf bereits optimierte, aber teils uneinheitliche Adapter angewiesen ist.

In Tests auf zehn Standard-Benchmarks erreichte das beste T2L-Modell 67,7 Prozent durchschnittliche Leistung. Bei einem direkteren Vergleich auf acht Benchmarks erzielte T2L 74,0 Prozent gegenüber 75,8 Prozent bei aufgabenspezifischen LoRA-Adaptern. Das entspricht etwa 98 Prozent der Referenzleistung bei eliminiertem Trainingsaufwand.

Generalisierung auf unbekannte Aufgaben mit Einschränkungen

T2L kann LoRA-Adapter auch für gänzlich neue, zuvor nicht gesehene Aufgaben erzeugen. Dabei übertraf es sowohl Multi-Task-LoRA-Baselines als auch andere Vergleichsmethoden. Allerdings hängt die Leistung stark davon ab, wie ähnlich die neue Aufgabe den Aufgaben aus den Trainingsdaten ist. Je größer die inhaltliche Nähe, desto besser funktioniert die Generalisierung.

Zero-Shot-Genauigkeiten auf zehn Benchmarks für Baselines und Text-to-LoRA(S/M/L); grün=über task-spezifischer LoRA, fett=über Multi-Task-LoRA.
Zero-Shot-Leistung von Text-to-LoRA (S/M/L) im Vergleich zu Baselines auf zehn Benchmarks; grün markierte Werte über den task-spezifischen LoRAs, fett solche über der Multi-Task-LoRA. | Bild: Sakana AI

Ein zentraler Faktor für die Leistung war die Qualität der Aufgabenbeschreibung: Präzise und aufgabenorientierte Formulierungen führten zu Ergebnissen, die nahe an spezialisierten Adaptern lagen. Ungenaue oder unpassende Beschreibungen hingegen führten zu deutlich schlechteren Resultaten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

T2L bietet laut der Studie erhebliche Effizienzvorteile: Es benötigt über viermal weniger Rechenoperationen als klassische Fine-Tuning-Methoden und kommt vollständig ohne aufgabenspezifische Trainingsdaten aus. Die Robustheit des Ansatzes wurde auch in Kombination mit verschiedenen Basismodellen wie Llama-3.1-8B und Gemma-2-2B bestätigt.

Die Hauptgrenzen des Systems liegen laut den Forschenden in zwei Bereichen: der starken Abhängigkeit von der Formulierung der Aufgabenbeschreibung und einer noch bestehenden Leistungslücke zu spezialisierten LoRA-Adaptern, insbesondere bei komplexen Aufgaben, die stark von den Trainingsdaten abweichen. Trotzdem sehen sie in T2L einen wichtigen Schritt hin zur automatisierten Anpassung großer Sprachmodelle.

Den Code samt Installationsanleitung stellt Sakana AI auf GitHub zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das japanische Start-up Sakana AI hat mit Text-to-LoRA (T2L) ein System vorgestellt, das automatisch Anpassungsmodule für große Sprachmodelle erzeugt – allein auf Basis einer kurzen Textbeschreibung der gewünschten Aufgabe, ohne zusätzliche Trainingsdaten.
  • T2L nutzt ein Hypernetwork, das auf hunderten Aufgaben trainiert wurde und LoRA-Adapter in einem Schritt generiert; damit erreicht das System bis zu 98 Prozent der Leistung spezialisierter Adapter, benötigt aber deutlich weniger Rechenressourcen und eliminiert den Bedarf an aufgabenspezifischem Training.
  • Die Ergebnisse zeigen, dass T2L besonders von präzisen Aufgabenbeschreibungen profitiert und für unbekannte Aufgaben robust generalisiert. Allerdings bleibt die Leistung bei sehr komplexen oder schlecht beschriebenen Aufgaben hinter spezialisierten Lösungen zurück.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!