Inhalt
summary Zusammenfassung

Microsoft Research hat eine neue KI-Architektur namens "Differential Transformer" (DIFF Transformer) entwickelt, die die Aufmerksamkeit auf relevante Kontexte verstärken und gleichzeitig Störungen reduzieren soll. Laut den Forschern zeigt der Ansatz Verbesserungen in verschiedenen Bereichen der Sprachverarbeitung.

Anzeige

Kernstück des DIFF Transformers ist die sogenannte "differenzielle Aufmerksamkeit". Dabei werden zwei separate Softmax-Aufmerksamkeitskarten berechnet und anschließend voneinander subtrahiert. Die Forscher erklären, dass durch diese Subtraktion gemeinsames Rauschen in beiden Aufmerksamkeitskarten eliminiert wird - ähnlich der Funktionsweise von Noise-Cancelling-Kopfhörern.

"Transformer-Modelle neigen dazu, irrelevanten Kontexten zu viel Aufmerksamkeit zu schenken", so das Forschungsteam. Dies führe zu Problemen beim genauen Abrufen von Schlüsselinformationen. Der DIFF Transformer soll dieses Problem durch seinen neuartigen Aufmerksamkeitsmechanismus beheben.

Diagramm: Vergleich Aufmerksamkeitsverteilung Transformer vs. Differential Transformer, zeigt verbesserte Signalverarbeitung und Leistung.
Durch die Verstärkung relevanter Signale und Unterdrückung von Rauschen erzielt der Differential Transformer eine präzisere Kontextmodellierung und höhere Genauigkeit bei Multi-Needle-Retrieval-Aufgaben. Bild: Microsoft

DIFF Transformer zeigt mehr Leistung mit weniger Daten

In Tests zeigte sich, dass der DIFF Transformer mit etwa 65 Prozent der Modellgröße oder Trainingsdaten eine vergleichbare Leistung wie herkömmliche Transformer erreicht. Bei einem 3-Milliarden-Parameter-Modell, trainiert auf einer Billion Token, übertraf der DIFF Transformer laut der Studie Varianten mit etablierter Transformer-Architektur.

Anzeige
Anzeige

Besonders bei der Verarbeitung längerer Kontexte von bis zu 64.000 Token zeigten sich Vorteile: In Tests zur Extraktion von Schlüsselinformationen aus langen Texten ("Needle in a haystack") schnitt der DIFF Transformer deutlich besser ab als herkömmliche Modelle. Bei der Positionierung wichtiger Informationen in der ersten Hälfte eines 64.000 Token langen Kontexts erzielte das neue Modell laut den Forschern eine um bis zu 76 Prozent höhere Genauigkeit.

Weniger Halluzinationen, robusteres Lernen, bessere Quantisierung

Ein weiterer Vorteil des DIFF Transformers liegt in der Reduzierung von Halluzinationen - einem häufigen Problem bei großen Sprachmodellen. Bei der Zusammenfassung von Texten aus Datensätzen wie XSum, CNN/DM und MultiNews zeigte der DIFF Transformer eine um 9 bis 19 Prozentpunkte höhere Genauigkeit als ein vergleichbarer Standard-Transformer. Ähnliche Verbesserungen wurden bei Frage-Antwort-Aufgaben beobachtet.

Auch beim kontextuellen Lernen erwies sich die neue Architektur als robuster gegenüber Veränderungen in der Reihenfolge der Beispiele - ein bekanntes Problem bei herkömmlichen Modellen.

Die Forscher berichten zudem von Vorteilen bei der Quantisierung von KI-Modellen. Bei der Quantisierung werden die kontinuierlichen Werte der Modellparameter auf eine begrenzte Anzahl diskreter Werte reduziert, um die Modellgröße zu verringern und die Inferenzgeschwindigkeit zu erhöhen. Der DIFF Transformer reduziert Ausreißer-Aktivierungen, die eine Herausforderung für die effiziente Komprimierung darstellen. Bei einer extremen Quantisierung auf 4 Bit erreichte der DIFF Transformer eine um etwa 25 Prozentpunkte höhere Genauigkeit als ein Standard-Transformer.

Trotz dieser Vorteile ist der Durchsatz des DIFF Transformers laut der Studie nur etwa 5 bis 12 Prozent geringer als der eines vergleichbaren herkömmlichen Transformers. Die Forscher sehen in der neuen Architektur daher eine vielversprechende Grundlage für zukünftige große Sprachmodelle.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft Research hat eine neue KI-Architektur namens "Differential Transformer" (DIFF Transformer) entwickelt. Diese soll die Aufmerksamkeit auf relevante Kontexte verstärken und Störungen reduzieren. Der Ansatz zeigt laut den Forschern Verbesserungen in verschiedenen Bereichen der Sprachverarbeitung.
  • Kernstück des DIFF Transformers ist die "differenzielle Aufmerksamkeit". Dabei werden zwei separate Softmax-Aufmerksamkeitskarten berechnet und voneinander subtrahiert. Dies soll gemeinsames Rauschen eliminieren, ähnlich wie bei Noise-Cancelling-Kopfhörern.
  • In Tests erreichte der DIFF Transformer mit etwa 65 Prozent der Modellgröße oder Trainingsdaten eine vergleichbare Leistung wie herkömmliche Transformer. Bei längeren Kontexten bis 64.000 Token zeigte er deutliche Vorteile. Zudem reduzierte er Halluzinationen und verbesserte die Quantisierung bei nur geringfügig niedrigerem Durchsatz.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!