Inhalt
summary Zusammenfassung

Ein Forscherteam hat ein KI-Sprachmodell entwickelt, das durch eine rekursive Architektur seine Denkprozesse beliebig vertiefen kann. 

Anzeige

Laut dem Forscherteam des ELLIS Institute Tübingen, der University of Maryland und des Lawrence Livermore National Laboratory kann das als "Huginn" bezeichnete Modell durch eine rekursive Struktur seine Berechnungstiefe während der Ausführung flexibel anpassen und so seine Leistung steigern.

Anders als gängige Reasoning-Modelle (LRMs) wie OpenAIs o3-mini, die Reasoning-Tokens - also Gedankenketten - generieren, benötigt Huginn kein spezielles Training und denkt im latenten Raum des neuronalen Netzes, bevor das erste Token ausgegeben wird.

Emergente Fähigkeiten im latenten Raum

Das Training erfolgte auf dem Frontier-Supercomputer mit 4.096 AMD MI250X GPUs - einer der größten Trainingsläufe auf einem AMD-Cluster. Das Trainingskonzept war neuartig, aber im Kern einfach: Anders als übliche Sprachmodelle wurde Huginn mit einer variablen Anzahl von Wiederholungen trainiert.

Anzeige
Anzeige

Bei jedem Durchgang wurde zufällig bestimmt, wie oft der zentrale Berechnungsblock wiederholt werden sollte - von einmal bis zu 64 Mal. Die spezielle Verteilung dieser Zufallszahl stellte sicher, dass das Modell überwiegend mit weniger Wiederholungen trainiert wurde, aber gelegentlich auch sehr viele Durchläufe machte.

Tests zeigen, dass das Modell bei mathematischen Aufgaben und Programmierung besonders gut abschneidet. Bei Benchmarks wie GSM8k und MATH übertrifft es einige getestete Open-Source-Modelle mit doppelt so vielen Parametern und mehr Trainingsdaten.

Die Forscher berichten auch von mehreren emergenten Fähigkeiten des Systems: Es kann ohne spezielles Training die Berechnungstiefe an die Komplexität der Aufgabe anpassen und Gedankenketten im latenten Raum entwickeln.

Analysen des Forscherteams zeigen auch, dass das Modell im latenten Raum komplexe Berechnungsmuster entwickelt, darunter kreisförmige Trajektorien bei mathematischen Aufgaben. Das Team sieht in den gefundenen Beispielen einen Hinweis, dass das Modell eigenständig lernt, "die hochdimensionale Natur seines latenten Raums zu nutzen, um auf neue Weise Schlussfolgerungen zu ziehen."

Vielversprechende Alternative zu klassischen Modellen

Auch wenn die absolute Leistung noch nicht bahnbrechend ist, sehen die Forscher großes Potenzial: Als Proof-of-Concept zeigt Huginn bereits beeindruckende Fähigkeiten bei geringer Größe und verhältnismäßig wenig Trainingsdaten. Die beobachtete Leistungssteigerung bei längerem Reasoning und die emergenten Fähigkeiten lassen vermuten, dass größere Modelle dieser Art eine vielversprechende Alternative zu klassischen Reasoning-Modellen sein könnten.

Empfehlung

Das Team betont dabei besonders, dass ihre Methode Arten von Reasoning erfassen könnte, die sich nicht leicht in Worten (genauer Chain-of-Thoughts) ausdrücken lassen. Weitere Forschung - und damit weitere Leistungssprünge - sind zu erwarten. Als mögliche Erweiterung nennen die Forscher den Einsatz von Reinforcement Learning, wie es auch bei klassischen Reasoning-Modellen zum Einsatz kommt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben ein KI-Sprachmodell namens "Huginn" entwickelt, das durch eine rekursive Architektur seine Berechnungstiefe flexibel anpassen und so seine Leistung steigern kann.
  • Das Training erfolgte auf einem Supercomputer, wobei die Anzahl der Wiederholungen des zentralen Berechnungsblocks zufällig variiert wurde. Dadurch lernte das Modell, seine Berechnungstiefe an die Komplexität der Aufgabe anzupassen.
  • Huginn schneidet bei mathematischen Aufgaben und Programmierung besonders gut ab und übertrifft einige größere Open-Source-Modelle. Die Forscher sehen großes Potenzial in diesem Ansatz als Alternative zu klassischen Reasoning-Modellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!