Eine neue Übersichtsstudie zeigt, dass die Veröffentlichung von Deepseek‑R1 die Forschung zu schlussfolgernden Sprachmodellen beschleunigt und wesentliche Fortschritte bei Training, Multimodalität und Sicherheit angestoßen hat.
Vor rund vier Monaten sorgte die Veröffentlichung von Deepseek-R1 für Wirbel in der KI-Landschaft. Das Modell zeigte beeindruckende Fähigkeiten im logischen Schlussfolgern, soll dafür aber wesentlich weniger Trainingsressourcen benötigt haben. Zahlreiche Unternehmen versuchten, R1 nachzubauen. Meta soll sogar eigens spezielle Gruppen eingerichtet haben, um das Modell zu analysieren und zu replizieren.
Forschende einer SEO-Agentur sowie verschiedener Universitäten aus China und Singapur haben jetzt untersucht, welche Auswirkungen das auf die generelle Weiterentwicklung von Sprachmodellen hatte. Ihnen zufolge hat R1 zu einem regelrechten Boom von Reasoning-fähigen Sprachmodellen geführt.
Bessere Daten, bessere Ergebnisse
Ein zentraler Hebel war das Supervised Finetuning (SFT), bei dem Grundmodelle mit Schritt-für-Schritt-Erklärungen nachtrainiert werden. Die Meta‑Analyse zeigt, dass nicht die Datenmenge, sondern deren Auswahl entscheidet: Bereits wenige Tausend streng geprüfte Beispiele heben selbst 7B‑ oder sogar 1,5B‑Modelle auf hohes Niveau, während schlecht gefilterte Datensätze mit Millionen Einträgen kaum Fortschritt bringen.
Die frühere Annahme, dass tiefes Reasoning notwendigerweise große Modelle erfordert, ist damit hinfällig. Die zugrundeliegenden Basismodelle bestimmen jedoch die verfügbaren Kapazitäten. Reasoning-Modelle können diese in Teilbereichen nur effizienter nutzen.
Besonders erfolgreich erwies sich der Einsatz von Reinforcement Learning, um die Reasoning‑Fähigkeiten weiter zu steigern. Dabei kamen primär zwei RL-Algorithmen zum Einsatz: PPO und GRPO. Beide existierten schon vor Deepseek-R1, scheinen durch den Erfolg bei R1 jedoch breitere Anwendung zu finden.
PPO (Proximal Policy Optimization) passt die Modellgewichte nach jedem Lernschritt nur so weit an, dass die neue Antwortstrategie nicht zu stark von der bisherigen abweicht; ein eingebauter Clip‑Mechanismus bremst zu große Sprünge und sorgt für stabiles Training.
GRPO (Group Relative Policy Optimization) greift diesen Gedanken auf, erzeugt pro Frage mehrere Antwortvorschläge, vergleicht deren Belohnungen innerhalb dieser kleinen Gruppe und lernt aus den relativen Unterschieden; durch diese Gruppennormalisierung kann es auf ein zusätzliches Wertnetz verzichten und bleibe bei langen Chain‑of‑Thought‑Antworten effizient.
Vielversprechende Trainingsstrategien
Die Forschungsgemeinschaft experimentierte auch mit verschiedenen Trainingsstrategien. So erwies sich ein schrittweises Vorgehen mit zunächst kürzeren und dann immer längeren Antworten als vorteilhaft. Auch Curriculum Learning, bei dem die Schwierigkeit der Aufgaben allmählich gesteigert wird, zeigte positive Effekte. Laut der Studie könnte dies darauf hindeuten, dass der Lernprozess von KI-Modellen dem menschlichen Lernen in mancher Hinsicht ähnelt.
Ein weiterer Trend ist die Erweiterung der Reasoning-Fähigkeiten auf multimodale Aufgaben. Erste Forschungsarbeiten konzentrieren sich darauf, diese Fähigkeiten auf die Analyse von Bildern und Audio zu übertragen – mit ersten Erfolgen: Reasoning-Kompetenzen, die in Textmodellen entwickelt wurden, lassen sich häufig auch auf andere Modalitäten anwenden.
OpenAIs aktuelles o3-Modell integriert beispielsweise Bilder und Tool-Nutzung direkt in seinen Reasoning-Prozess – eine Funktion, die beim ursprünglichen Launch im vergangenen Dezember noch nicht verfügbar oder hervorgehoben war. Die Forschenden sehe weiterhin erheblichen Spielraum für Fortschritt.
Reasoning bringt neue KI-Phänomene
Die verbesserten Schlussfolgerungsfähigkeiten bringen jedoch auch neue Herausforderungen für die Sicherheit und Effizienz der KI mit sich. So wurden Methoden entwickelt, um unerwünschtes Verhalten wie exzessives "Overthinking" zu vermeiden.
Ein anekdotisches Beispiel zum Overthinking: Das Phi-4-Reasoning-Modell von Microsoft generiert mehr als 50 "Gedankengänge", um auf ein einfaches "Hi" zu antworten. Laut einer Analyse von Artificial Analysis erhöht Reasoning den Tokenverbrauch beim neuen Flash-2.5-Modell von Google um das 17-Fache – und damit auch die Kosten.
Der Einsatz von Reasoning kann zwar die Qualität und Sicherheit von KI-Ausgaben verbessern, jedoch auch zu erheblichem Rechenaufwand, Kostensteigerungen und potenziell ineffizientem Verhalten führen.
Umso wichtiger ist es, zu entscheiden, wann man ein herkömmliches LLM und wann ein Reasoning-Modell verwendet. Abseits von komplexen Aufgaben aus Logik, Naturwissenschaft und auch Code gibt es hierfür noch keinen Konsens.
OpenAI hat kürzlich für die eigenen Modelle einen Guide veröffentlicht, der zwar Orientierung bietet, die Frage nach dem sinnvollen Einsatz von Reasoning aber ebenfalls nicht abschließend klärt. Die Auswahl bleibt kontextabhängig – und erfordert ein Abwägen zwischen Effizienz, Kosten und gewünschter Antworttiefe.
Modell | Hauptstärke | Ideal geeignet für | Zu beachten | Hoch-/Herunterstufung möglich bei |
---|---|---|---|---|
GPT‑4o | Echtzeit-Sprach-/Bild-Interaktion | Live-Multimodal-Agenten | Etwas hinter GPT-4.1 bei Textqualität (SOTA) | Bedarf an tiefem Reasoning → o4-mini |
GPT‑4.1 | König der Textgenauigkeit mit 1 Mio. Token Kontext | Analyse langer Dokumente, Code-Reviews | Kein natives Reasoning; höhere Kosten als Minis | Enges Budget → 4.1-mini / nano |
o3 | Agent mit tiefem Tool-Einsatz | Hochkomplexe, mehrstufige Reasoning-Aufgaben | Latenz und Preis | Preis/Latenz zu hoch → o4-mini |
o4‑mini | Günstiges, schnelles Reasoning | Hohe Mengen an "gut genug"-Logikaufgaben | Begrenzte Tiefe im Vergleich zu o3 | Genauigkeit entscheidend → o3 |
Auch die Robustheit gegen sogenanntes Jailbreaking rückt in den Fokus. Reasoning-Modelle können durch ihren strukturierten Denkprozess zwar die Widerstandsfähigkeit gegen solche Angriffe erhöhen, aber gleichzeitig auch neue Sicherheitsrisiken schaffen: Wird die Argumentationslogik gezielt manipuliert, besteht die Gefahr, dass das Modell trotz Schutzmechanismen zu problematischen oder schädlichen Ausgaben verleitet werden kann.
Insgesamt habe Deepseek-R1 die Entwicklung schlussfolgernder Sprachmodelle deutlich beschleunigt, so das Fazit der Untersuchung. Die Autor:innen betonen, dass "diese Entwicklungen lediglich den Auftakt einer vielversprechenden Forschungsrichtung markieren". Zukünftige Arbeiten sollten darauf abzielen, die Reasoning-Fähigkeiten auf weitere Anwendungsfelder zu übertragen, die Modellsicherheit zu erhöhen und noch effizientere Trainingsverfahren zu entwickeln.