Metas Thinking LLMs sollen ohne teure Trainingsdaten "denken" lernen

Wissenschaftler von Meta, Berkeley und NYU haben eine neue Methode entwickelt, um Sprachmodelle zum "Denken" vor dem Antworten zu bringen. Der Ansatz soll die Leistung bei allgemeinen Aufgaben verbessern.

Forscher von Meta FAIR, der University of California, Berkeley und der New York University haben eine neue Methode namens "Thought Preference Optimization" (TPO) entwickelt, um große Sprachmodelle (LLMs) zum "Denken" vor dem Antworten zu bringen. Laut der Studie soll dieser Ansatz die Leistung der Modelle bei allgemeinen Aufgaben verbessern, nicht nur bei mathematischen oder logischen Problemen.

"Wir argumentieren, dass 'Denken' einen breiten Nutzen haben sollte", erklären die Forscher. "Zum Beispiel können bei einer kreativen Schreibaufgabe interne Gedanken zur Planung der Gesamtstruktur und der Charaktere verwendet werden."

Bisher wurde die dafür häufig verwendete Technik des "Chain-of-Thought" (CoT) Promptings hauptsächlich für Mathematik- und Logikaufgaben eingesetzt. Eine Ausnahme bildet hier OpenAIs neues o1-Modell, das die Forscher als Unterstützung für ihre These anführen.

Training ohne zusätzliche Daten

Eine Herausforderung beim Training von Modellen zum Denken ist der Mangel an Trainingsdaten mit menschlichen Gedankenprozessen. TPO umgeht dieses Problem, indem es den Denkprozess des Modells iterativ optimiert, ohne zusätzliche Daten zu benötigen.

Die Methode funktioniert wie folgt:

1. Das Modell wird aufgefordert, vor der eigentlichen Antwort einen Gedankenprozess zu generieren.
2. Es werden mehrere solcher Ausgaben erzeugt.
3. Ein Bewertermodell beurteilt nur die Antworten, nicht die Gedanken.
4. Anhand dieser Bewertungen wird das Modell mittels Präferenzoptimierung trainiert.

Es werden also nicht die Gedankenschritte bewertet - nur ihr Ergebnis. Die Hoffnung der Forscher: Bessere Antworten erfordern bessere Gedankenschritte - das Modell lernt so implizit Antworten zu geben, die besseren Gedankenschritten folgen.

Flussdiagramm: Thought Preference Optimization für LLMs, zeigt Prozess von Eingabe über Gedankengenerierung bis zur Auswahl optimaler Antworten. — Das Diagramm veranschaulicht den Thought Preference Optimization (TPO) Prozess für Large Language Models (LLMs). Die Methode verbessert laut Meta die Qualität der KI-Antworten durch iterative Bewertung und Auswahl von Gedankengängen. | Bild: Wu et al.

Es ist unklar, wie genau das o1-Modell von OpenAI trainiert wurde, aber es ist sehr wahrscheinlich, dass qualitativ hochwertige Trainingsdaten mit explizit dargelegten Gedankengängen Teil der Trainingsdaten von o1 waren. Außerdem "denkt" o1 aktiv, d.h. es gibt seine Gedankenschritte als Text aus, der wiederum analysiert bzw. ausgewertet wird. Damit unterscheidet sich die TPO von Meta deutlich von der Methode von OpenAI.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Verbesserungen in verschiedenen Kategorien

Die Forscher evaluierten ein Llama 3 8B Modell auf den Benchmarks AlpacaEval und Arena-Hard, die allgemeine Instruktionsbefolgung testen. TPO erreichte eine starke Gewinnrate von 52,5% bzw. 37,3% und übertraf damit das direkte LLM-Pendant ohne explizites Denken.

Es zeigte sich auch, dass das Denken nicht nur bei Themen wie Argumentieren und Problemlösen hilft, sondern auch zu besseren Leistungen in Kategorien führt, die typischerweise nicht mit Argumentation in Verbindung gebracht werden, wie allgemeines Wissen, Marketing und Gesundheit.

"Dies eröffnet eine neue Möglichkeit, Thinking LLMs zu entwickeln, die auf allgemeine Instruktionsbefolgung abzielen, anstatt sich auf engere technische Bereiche zu spezialisieren", schließen die Forscher.

Allerdings räumen die Wissenschaftler ein, dass ihr experimenteller Aufbau nicht für mathematische Aufgaben geeignet ist. Tatsächlich verschlechterte sich die Leistung bei mathematischen Problemen im Vergleich zum Ausgangsmodell.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zukünftige Arbeiten könnten sich darauf konzentrieren, die Länge der Gedanken steuerbarer zu machen und die Auswirkungen des Denkens auf größere Modelle zu untersuchen. Die Forscher hoffen, dass ihre Arbeit zu einer breiteren Anwendung von Thinking LLMs in nicht-mathematischen Bereichen führen wird.

Metas Thinking LLMs sollen ohne teure Trainingsdaten "denken" lernen

Training ohne zusätzliche Daten

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Verbesserungen in verschiedenen Kategorien

Meta kauft Audio-KI-Start-up und bündelt Superintelligence-Offensive für Llama 4.5

Metas All-Star-KI-Team: Milliardeninvestition mit unklarem Ausgang

Meta wirbt erneut Top-KI-Forscher von Apple ab - Millionen-Gehälter locken

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Metas Thinking LLMs sollen ohne teure Trainingsdaten "denken" lernen

Training ohne zusätzliche Daten

Verbesserungen in verschiedenen Kategorien

Artikel teilen

Bankverbindung