Inhalt
summary Zusammenfassung

Ein Forscherteam stellt mit T-FREE eine neue Methode vor, die ohne Tokenizer auskommt und die Effizienz von großen Sprachmodellen deutlich steigern könnte.

Anzeige

Wissenschaftler von Aleph Alpha, der Technischen Universität Darmstadt, hessian.AI und dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) haben mit T-FREE eine neue Methode für Sprachmodelle entwickelt, die ohne den klassischen Tokenizer-Ansatz auskommt und die Effizienz großer Sprachmodelle deutlich verbessern könnte.

"Tokenizer-Free Sparse Representations for Memory-Efficient Embeddings" (T-FREE) verwendet stattdessen eine direkte Einbettung von Wörtern durch sparsame Aktivierungsmuster über Zeichentripel - das Team nennt das "Trigrams". Dies ermöglicht eine starke Komprimierung der Einbettungsschicht, die für die Umwandlung von Text in eine numerische Darstellung verantwortlich ist.

Bild: Deiseroth et al.

In ersten Tests erreichten die Forscher mit T-FREE eine Parameterreduktion von mehr als 85 Prozent in diesen Schichten, ohne dass die Leistung in nachgelagerten Aufgaben wie Textklassifikation oder Frage-Antwort-Systemen beeinträchtigt wurde.

Anzeige
Anzeige

T-FREE erleichtert Transfer-Lernen

Einer der Hauptvorteile von T-FREE ist laut dem Team die explizite Modellierung morphologischer Ähnlichkeiten zwischen Wörtern. Das bedeutet, dass ähnliche Wortformen wie "Haus", "Häuser" und "häuslich" im Modell effizienter dargestellt werden können, da ihre Ähnlichkeiten direkt in die Kodierung einfließen.

Die Forscher argumentieren, dass die Einbettungen solch ähnlicher Wörter nahe beieinander bleiben sollten und daher stark komprimiert werden können. Dadurch kann T-FREE nicht nur die Größe der Einbettungsschichten reduzieren, sondern auch die durchschnittliche Kodierungslänge des Textes um 56 Prozent verringern.

Darüber hinaus zeigt T-FREE signifikante Verbesserungen beim Transferlernen zwischen verschiedenen Sprachen. In einem Experiment mit einem 3-Milliarden-Parameter-Modell, das zunächst auf Englisch und dann auf Deutsch trainiert wurde, zeigte T-FREE eine deutlich bessere Anpassungsfähigkeit als herkömmliche Tokenizer-basierte Ansätze.

Allerdings weisen die Forscher auch auf einige Einschränkungen ihrer Studie hin. So wurden die Experimente bisher nur mit Modellen mit bis zu 3 Milliarden Parametern durchgeführt. Auswertungen mit größeren Modellen und Trainingsdatensätzen sollen jedoch folgen.

Mehr Informationen gibt es auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Aleph Alpha, TU Darmstadt, hessian.AI und DFKI haben T-FREE entwickelt, eine neue Methode für Sprachmodelle ohne klassischen Tokenizer. Sie verwendet stattdessen eine direkte Einbettung von Wörtern durch sparsame Aktivierungsmuster über Zeichentripel.
  • In ersten Tests erreichte T-FREE eine Parameterreduktion von über 85 Prozent in den Einbettungsschichten, ohne die Leistung bei Aufgaben wie Textklassifikation oder Frage-Antwort-Systemen zu beeinträchtigen. Zudem konnte die durchschnittliche Kodierungslänge des Textes um 56 Prozent verringert werden.
  • T-FREE zeigte Vorteile beim Transfer-Lernen zwischen Sprachen. In einem Experiment mit einem 3-Milliarden-Parameter-Modell, das zunächst auf Englisch und dann auf Deutsch trainiert wurde, erwies sich T-FREE als deutlich anpassungsfähiger als herkömmliche Tokenizer-basierte Ansätze.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!