Inhalt
summary Zusammenfassung

Wissenschaftler von Meta, Berkeley und NYU haben eine neue Methode entwickelt, um Sprachmodelle zum "Denken" vor dem Antworten zu bringen. Der Ansatz soll die Leistung bei allgemeinen Aufgaben verbessern.

Anzeige

Forscher von Meta FAIR, der University of California, Berkeley und der New York University haben eine neue Methode namens "Thought Preference Optimization" (TPO) entwickelt, um große Sprachmodelle (LLMs) zum "Denken" vor dem Antworten zu bringen. Laut der Studie soll dieser Ansatz die Leistung der Modelle bei allgemeinen Aufgaben verbessern, nicht nur bei mathematischen oder logischen Problemen.

"Wir argumentieren, dass 'Denken' einen breiten Nutzen haben sollte", erklären die Forscher. "Zum Beispiel können bei einer kreativen Schreibaufgabe interne Gedanken zur Planung der Gesamtstruktur und der Charaktere verwendet werden."

Bisher wurde die dafür häufig verwendete Technik des "Chain-of-Thought" (CoT) Promptings hauptsächlich für Mathematik- und Logikaufgaben eingesetzt. Eine Ausnahme bildet hier OpenAIs neues o1-Modell, das die Forscher als Unterstützung für ihre These anführen.

Anzeige
Anzeige

Training ohne zusätzliche Daten

Eine Herausforderung beim Training von Modellen zum Denken ist der Mangel an Trainingsdaten mit menschlichen Gedankenprozessen. TPO umgeht dieses Problem, indem es den Denkprozess des Modells iterativ optimiert, ohne zusätzliche Daten zu benötigen.

Die Methode funktioniert wie folgt:

1. Das Modell wird aufgefordert, vor der eigentlichen Antwort einen Gedankenprozess zu generieren.
2. Es werden mehrere solcher Ausgaben erzeugt.
3. Ein Bewertermodell beurteilt nur die Antworten, nicht die Gedanken.
4. Anhand dieser Bewertungen wird das Modell mittels Präferenzoptimierung trainiert.

Es werden also nicht die Gedankenschritte bewertet - nur ihr Ergebnis. Die Hoffnung der Forscher: Bessere Antworten erfordern bessere Gedankenschritte - das Modell lernt so implizit Antworten zu geben, die besseren Gedankenschritten folgen.

Flussdiagramm: Thought Preference Optimization für LLMs, zeigt Prozess von Eingabe über Gedankengenerierung bis zur Auswahl optimaler Antworten.
Das Diagramm veranschaulicht den Thought Preference Optimization (TPO) Prozess für Large Language Models (LLMs). Die Methode verbessert laut Meta die Qualität der KI-Antworten durch iterative Bewertung und Auswahl von Gedankengängen. | Bild: Wu et al.

Es ist unklar, wie genau das o1-Modell von OpenAI trainiert wurde, aber es ist sehr wahrscheinlich, dass qualitativ hochwertige Trainingsdaten mit explizit dargelegten Gedankengängen Teil der Trainingsdaten von o1 waren. Außerdem "denkt" o1 aktiv, d.h. es gibt seine Gedankenschritte als Text aus, der wiederum analysiert bzw. ausgewertet wird. Damit unterscheidet sich die TPO von Meta deutlich von der Methode von OpenAI.

Empfehlung

Verbesserungen in verschiedenen Kategorien

Die Forscher evaluierten ein Llama 3 8B Modell auf den Benchmarks AlpacaEval und Arena-Hard, die allgemeine Instruktionsbefolgung testen. TPO erreichte eine starke Gewinnrate von 52,5% bzw. 37,3% und übertraf damit das direkte LLM-Pendant ohne explizites Denken.

Es zeigte sich auch, dass das Denken nicht nur bei Themen wie Argumentieren und Problemlösen hilft, sondern auch zu besseren Leistungen in Kategorien führt, die typischerweise nicht mit Argumentation in Verbindung gebracht werden, wie allgemeines Wissen, Marketing und Gesundheit.

"Dies eröffnet eine neue Möglichkeit, Thinking LLMs zu entwickeln, die auf allgemeine Instruktionsbefolgung abzielen, anstatt sich auf engere technische Bereiche zu spezialisieren", schließen die Forscher.

Allerdings räumen die Wissenschaftler ein, dass ihr experimenteller Aufbau nicht für mathematische Aufgaben geeignet ist. Tatsächlich verschlechterte sich die Leistung bei mathematischen Problemen im Vergleich zum Ausgangsmodell.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zukünftige Arbeiten könnten sich darauf konzentrieren, die Länge der Gedanken steuerbarer zu machen und die Auswirkungen des Denkens auf größere Modelle zu untersuchen. Die Forscher hoffen, dass ihre Arbeit zu einer breiteren Anwendung von Thinking LLMs in nicht-mathematischen Bereichen führen wird.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Meta, Berkeley und NYU haben eine neue Methode namens "Thought Preference Optimization" (TPO) entwickelt, um Sprachmodelle zum "Denken" vor dem Antworten zu bringen. Ziel ist es, die Leistung bei allgemeinen Aufgaben zu verbessern.
  • TPO funktioniert, indem das Modell aufgefordert wird, vor der Antwort einen Gedankenprozess zu generieren. Ein Bewertermodell beurteilt nur die Antworten, nicht die Gedanken. Anhand dieser Bewertungen wird das Modell mittels Präferenzoptimierung trainiert.
  • Bei Tests mit einem Llama 3 8B Modell zeigte TPO Verbesserungen in verschiedenen Kategorien wie Argumentieren, Problemlösen, allgemeines Wissen und Marketing. Bei mathematischen Aufgaben verschlechterte sich die Leistung jedoch im Vergleich zum Ausgangsmodell.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!