Anzeige
Skip to content
Read full article about: Übersicht über Reinforcement Learning für LLM Reasoning

Der KI-Forscher Sebastian Raschka veröffentlicht eine umfassende Analyse zum Stand von Reinforcement Learning für Reasoning-Fähigkeiten großer Sprachmodelle (LRMs). Der Artikel erklärt die Rolle von Algorithmen wie PPO und GRPO sowie Trainingsmethoden wie RLHF und RLVR. Besonders im Fokus stehen Modelle wie DeepSeek-R1, die mithilfe verifizierbarer Belohnungen ohne menschliche Labels trainiert wurden. Raschka zeigt, wie RL das Schlussfolgern verbessert, welche Probleme wie zu lange falsche Antworten auftreten können und welche Modifikationen helfen.

Obwohl Schlussfolgerungen allein keine Wunderwaffe sind, verbessern sie (bislang) zuverlässig die Modellgenauigkeit und die Problemlösungsfähigkeiten bei anspruchsvollen Aufgaben. Ich gehe davon aus, dass auf Schlussfolgerungen ausgerichtetes Post-Training in zukünftigen LLM-Pipelines zur Standardpraxis werden wird.

Read full article about: Neue KI-Benchmarks: OpenAI will mit Pioneers-Programm Praxistests verbessern

OpenAI startet ein neues Programm zur Entwicklung branchenspezifischer KI-Bewertungssysteme. Das "Pioneers Program" soll Benchmarks für Bereiche wie Recht, Finanzen und Gesundheitswesen schaffen, die reale Anwendungsfälle besser abbilden als bestehende Tests. Aktuelle KI-Benchmarks sind laut OpenAI problematisch, da sie oft schwer verständliche Aufgaben messen oder manipulierbar sind - ein Vorwurf, dem sich das Unternehmen selbst immer wieder stellen muss. In den kommenden Monaten will das Unternehmen mit "mehreren Firmen" zusammenarbeiten, um maßgeschneiderte Bewertungsmaßstäbe zu entwickeln und später öffentlich zu teilen. Die erste Gruppe besteht aus ausgewählten Start-ups mit praktischen KI-Anwendungen. Teilnehmende Unternehmen können zudem mit OpenAI an Modellverbesserungen durch Reinforcement-Fine-Tuning arbeiten.