Inhalt
summary Zusammenfassung

Mit OPT-IML bringt Meta ein auf Sprachaufgaben optimiertes Open-Source-Sprachmodell in der Größenordnung eines GPT-3. Es ist nur für Forschungszwecke verfügbar.

Der "Open-Pre-trained-Transformer - Instruction Meta-Learning" (OPT-IML) basiert auf Metas OPT-Sprachmodell, das Anfang Mai 2022 angekündigt und Ende Mai veröffentlicht wurde. Das größte Modell hat 175 Milliarden Parameter wie OpenAIs GPT-3, soll aber im Training deutlich effizienter gewesen sein und nur ein Siebentel des CO₂-Fußabdrucks von GPT-3 verursacht haben.

Fine-Tuning mit Sprachaufgaben

Die jetzt veröffentlichte IML-Version ist laut Meta mit einem Sammlung von bis zu rund 2000 natürlichen Sprachaufgaben auf die Erfüllung ebendieser feingetunt. Typische Sprachaufgaben sind etwa die Beantwortung von Fragen, Textzusammenfassungen und Übersetzungen. Die Aufgaben sind in acht NLP-Benchmarks (OPT-IML Bench) zusammengefasst, die die Forschenden ebenfalls zur Verfügung stellen.

Meta bietet OPT-IML in zwei Versionen an: OPT-IML selbst wurde mit 1500 Aufgaben trainiert, weitere 500 Aufgaben wurden für die Evaluation zurückgehalten. OPT-IML-Max wurde mit allen 2000 verfügbaren Aufgaben trainiert.

Anzeige
Anzeige

Im Durchschnitt verbessert OPT-IML die 0-Shot-Genauigkeit sowohl beim 30B- als auch beim 175B-Modell gegenüber OPT um etwa 6-7 %. Bei der 32-Shot-Genauigkeit sehen wir signifikante Verbesserungen beim 30B-Modell und geringere Verbesserungen beim 175B-Modell. Während die Verbesserungen bei bestimmten Aufgaben wie RTE, WSC, BoolQ, ARC, CB und WiC signifikant sind, verbessert unser Instruktionstuning die Leistung bei anderen Aufgaben wie StoryCloze, PIQA, Winograd und Winogrande nicht.

Aus dem Paper

Bild: Meta AI

In ihrem Paper stellen die Forschenden zudem strategische Evaluierungssplits für ihren Benchmark vor, um drei verschiedene Arten von Modellgeneralisierungsfähigkeiten zu evaluieren: 1) vollständig überwachte Leistung, 2) Leistung bei ungesehenen Aufgaben aus gesehenen Aufgabenkategorien und 3) Leistung bei Aufgaben aus vollständig ausgelassenen Kategorien. Mithilfe dieser Evaluierungssuite stellen sie Kompromisse und empfohlene Vorgehensweisen für viele Aspekte des Instruktionstunings vor.

Keine kommerzielle Nutzung

Meta veröffentlicht das 30-Milliarden-Parameter-Modell in beiden Versionen direkt bei Github als Download. Das OPT-IML-175B-Modell soll demnächst auf Bewerbung zur Verfügung gestellt werden. Das Antragsformular wird ebenfalls bei Github online gehen.

Anders als etwa GPT-3 via API darf OPT-IML nicht für kommerzielle Zwecke verwendet werden. Die bereitgestellte OPT-Lizenz gilt ausschließlich für nicht kommerzielle Forschungszwecke. Die Lizenz ist an die Empfangsperson gebunden und darf nicht weitergegeben werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit OPT-IML stellt Meta ein auf Sprachaufgaben feingetuntes großes Sprachmodell vor.
  • Sprachaufgaben sind etwa Zusammenfassungen oder Übersetzungen.
  • Das größte Modell hat wie GPT-3 175 Milliarden Parameter. OPT-IML darf allerdings nur für Forschungszwecke verwendet werden.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!