Inhalt
summary Zusammenfassung

Eine neue Architektur namens Energy-Based Transformer soll KI-Modellen beibringen, Probleme analytisch und schrittweise zu lösen.

Anzeige

Heutige KI-Modelle arbeiten nach der Ansicht vieler Experten ähnlich dem menschlichen "System 1-Denken" nach Daniel Kahneman: Sie sind schnell, intuitiv und stark in der Mustererkennung. Laut einer Studie von Forschern der UVA, UIUC, Stanford, Harvard und Amazon GenAI versagen sie jedoch oft bei Aufgaben, die das langsame, analytische "System 2-Denken" erfordern, wie komplexes logisches Schließen oder Mathematik.

Das Paper "Energy-Based Transformers are Scalable Learners and Thinkers" stellt die Frage, ob solche Denkfähigkeiten allein aus unüberwachtem Lernen entstehen können. Die Antwort der Forscher ist eine neue Architektur: die Energy-Based Transformers (EBTs).

Der Ansatz der EBTs definiert das Denken als einen iterativen Optimierungsprozess. Statt eine Antwort in einem einzigen Schritt zu generieren, beginnt das Modell mit einer zufälligen Lösung. Anschließend bewertet es diese, indem es eine "Energie" berechnet.

Anzeige
Anzeige

Je niedriger die Energie, desto besser passt die Vorhersage zum Kontext. Durch wiederholte Anpassungen mittels Gradientenabstieg wird die Antwort schrittweise verfeinert, bis die Energie ein Minimum erreicht. Dieser Mechanismus soll es dem Modell ermöglichen, für schwierige Probleme mehr Rechenzeit zu investieren.

Bild: Gladstone et al.

Die Idee, diesen Prozess in Begriffen der Energie zu beschreiben, ist nicht neu. Yann LeCun, der KI-Chefwissenschaftler von Meta, gehört zu den Forschern, die schon seit vielen Jahren über sogenannte „Energy-based Models” sprechen.

Effizienteres Lernen und bessere Generalisierung

In Experimenten verglichen die Forscher EBTs mit einer Transformer-Variante (Transformer++). Die Ergebnisse sollen zeigen, dass EBTs effizienter skalieren. Laut dem Paper erreichen sie eine bis zu 35 Prozent höhere Skalierungsrate in Bezug auf Datenmenge, Parameterzahl und Rechenaufwand. Das deute darauf hin, dass EBTs daten- und recheneffizienter sind.

Die eigentliche Stärke soll sich bei der "Denkskalierbarkeit" zeigen, also der Leistungssteigerung durch zusätzlichen Rechenaufwand zur Laufzeit. Hier konnten EBTs ihre Leistung bei Sprachaufgaben um bis zu 29 Prozent verbessern, insbesondere bei Aufgaben, die stark von den Trainingsdaten abweichen.

Bild: Gladstone et al.

Im Vergleich mit Diffusion Transformers (DiTs) bei der Bildentrauschung sollen EBTs die Leistung der DiTs ebenfalls deutlich übertroffen und dafür 99 Prozent weniger Rechenschritte benötigt haben. Die von EBTs gelernten Bildrepräsentationen führten laut der Studie zu einer rund zehnmal höheren Klassifizierungsgenauigkeit auf ImageNet-1k, was auf ein besseres Verständnis der Inhalte hindeute.

Empfehlung

Erhebliche Hürden in der Praxis

Trotz der vielversprechenden Ergebnisse gibt es offene Fragen. Ein zentrales Problem ist der Rechenaufwand: Das Training von EBTs erfordert laut dem Paper 3,3- bis 6,6-mal mehr Rechenleistung (FLOPs) als bei herkömmlichen Transformern. Dieser Mehraufwand könnte für viele praktische Anwendungen ein Hindernis sein. Zudem wird in der Studie die Fähigkeit zum "System 2-Denken" hauptsächlich durch Verbesserungen der Perplexität gemessen und nicht in tatsächlichen Reasoning-Aufgaben. Vergleiche mit modernen Reasoning-Modellen fehlen aufgrund von geringen Compute-Budgets für die Experimente ebenfalls.

Alle Vorhersagen zur Skalierung basieren aus dem gleichen Grund nur auf Experimenten mit Modellen von bis zu 800 Millionen Parametern. Das ist im Vergleich zu modernen KI-Modellen sehr klein. Ob die Vorteile bei solch großen Modellen bestehen bleiben, muss sich also erst zeigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von UVA, UIUC, Stanford, Harvard und Amazon GenAI haben mit den Energy-Based Transformers (EBTs) eine Architektur vorgestellt, die KI-Modellen ermöglichen soll, Probleme schrittweise und analytisch zu lösen, indem sie Antworten iterativ über einen Optimierungsprozess verfeinert.
  • In Experimenten zeigen EBTs eine bis zu 35 Prozent höhere Skalierungseffizienz und verbesserte Generalisierung gegenüber klassischen Transformern sowie deutliche Leistungsgewinne gegenüber Diffusion Transformers bei der Bildverarbeitung – mit bis zu zehnmal höherer Klassifizierungsgenauigkeit auf ImageNet-1k und 99 Prozent weniger Rechenschritten.
  • Das Training von EBTs benötigt jedoch 3,3- bis 6,6-mal mehr Rechenleistung als herkömmliche Transformer, und die Studie misst Denkleistungen vor allem an Perplexitätswerten, ohne echte Reasoning-Aufgaben oder Vergleiche mit aktuellen Reasoning-Modellen; zudem wurden nur Modelle mit bis zu 800 Millionen Parametern getestet.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!