Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

Eine neue Übersichtsstudie zeigt, dass die Veröffentlichung von Deepseek‑R1 die Forschung zu schlussfolgernden Sprachmodellen beschleunigt und wesentliche Fortschritte bei Training, Multimodalität und Sicherheit angestoßen hat.

Vor rund vier Monaten sorgte die Veröffentlichung von Deepseek-R1 für Wirbel in der KI-Landschaft. Das Modell zeigte beeindruckende Fähigkeiten im logischen Schlussfolgern, soll dafür aber wesentlich weniger Trainingsressourcen benötigt haben. Zahlreiche Unternehmen versuchten, R1 nachzubauen. Meta soll sogar eigens spezielle Gruppen eingerichtet haben, um das Modell zu analysieren und zu replizieren.

Forschende einer SEO-Agentur sowie verschiedener Universitäten aus China und Singapur haben jetzt untersucht, welche Auswirkungen das auf die generelle Weiterentwicklung von Sprachmodellen hatte. Ihnen zufolge hat R1 zu einem regelrechten Boom von Reasoning-fähigen Sprachmodellen geführt.

Bessere Daten, bessere Ergebnisse

Ein zentraler Hebel war das Supervised Finetuning (SFT), bei dem Grundmodelle mit Schritt-für-Schritt-Erklärungen nachtrainiert werden. Die Meta‑Analyse zeigt, dass nicht die Datenmenge, sondern deren Auswahl entscheidet: Bereits wenige Tausend streng geprüfte Beispiele heben selbst 7B‑ oder sogar 1,5B‑Modelle auf hohes Niveau, während schlecht gefilterte Datensätze mit Millionen Einträgen kaum Fortschritt bringen.

Die frühere Annahme, dass tiefes Reasoning notwendigerweise große Modelle erfordert, ist damit hinfällig. Die zugrundeliegenden Basismodelle bestimmen jedoch die verfügbaren Kapazitäten. Reasoning-Modelle können diese in Teilbereichen nur effizienter nutzen.

Besonders erfolgreich erwies sich der Einsatz von Reinforcement Learning, um die Reasoning‑Fähigkeiten weiter zu steigern. Dabei kamen primär zwei RL-Algorithmen zum Einsatz: PPO und GRPO. Beide existierten schon vor Deepseek-R1, scheinen durch den Erfolg bei R1 jedoch breitere Anwendung zu finden.

PPO (Proximal Policy Optimization) passt die Modellgewichte nach jedem Lernschritt nur so weit an, dass die neue Antwortstrategie nicht zu stark von der bisherigen abweicht; ein eingebauter Clip‑Mechanismus bremst zu große Sprünge und sorgt für stabiles Training.

GRPO (Group Relative Policy Optimization) greift diesen Gedanken auf, erzeugt pro Frage mehrere Antwortvorschläge, vergleicht deren Belohnungen innerhalb dieser kleinen Gruppe und lernt aus den relativen Unterschieden; durch diese Gruppennormalisierung kann es auf ein zusätzliches Wertnetz verzichten und bleibe bei langen Chain‑of‑Thought‑Antworten effizient.

Vielversprechende Trainingsstrategien

Die Forschungsgemeinschaft experimentierte auch mit verschiedenen Trainingsstrategien. So erwies sich ein schrittweises Vorgehen mit zunächst kürzeren und dann immer längeren Antworten als vorteilhaft. Auch Curriculum Learning, bei dem die Schwierigkeit der Aufgaben allmählich gesteigert wird, zeigte positive Effekte. Laut der Studie könnte dies darauf hindeuten, dass der Lernprozess von KI-Modellen dem menschlichen Lernen in mancher Hinsicht ähnelt.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Ein weiterer Trend ist die Erweiterung der Reasoning-Fähigkeiten auf multimodale Aufgaben. Erste Forschungsarbeiten konzentrieren sich darauf, diese Fähigkeiten auf die Analyse von Bildern und Audio zu übertragen – mit ersten Erfolgen: Reasoning-Kompetenzen, die in Textmodellen entwickelt wurden, lassen sich häufig auch auf andere Modalitäten anwenden.

OpenAIs aktuelles o3-Modell integriert beispielsweise Bilder und Tool-Nutzung direkt in seinen Reasoning-Prozess – eine Funktion, die beim ursprünglichen Launch im vergangenen Dezember noch nicht verfügbar oder hervorgehoben war. Die Forschenden sehe weiterhin erheblichen Spielraum für Fortschritt.

Reasoning bringt neue KI-Phänomene

Die verbesserten Schlussfolgerungsfähigkeiten bringen jedoch auch neue Herausforderungen für die Sicherheit und Effizienz der KI mit sich. So wurden Methoden entwickelt, um unerwünschtes Verhalten wie exzessives "Overthinking" zu vermeiden.

Ein anekdotisches Beispiel zum Overthinking: Das Phi-4-Reasoning-Modell von Microsoft generiert mehr als 50 "Gedankengänge", um auf ein einfaches "Hi" zu antworten. Laut einer Analyse von Artificial Analysis erhöht Reasoning den Tokenverbrauch beim neuen Flash-2.5-Modell von Google um das 17-Fache – und damit auch die Kosten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Einsatz von Reasoning kann zwar die Qualität und Sicherheit von KI-Ausgaben verbessern, jedoch auch zu erheblichem Rechenaufwand, Kostensteigerungen und potenziell ineffizientem Verhalten führen.

Umso wichtiger ist es, zu entscheiden, wann man ein herkömmliches LLM und wann ein Reasoning-Modell verwendet. Abseits von komplexen Aufgaben aus Logik, Naturwissenschaft und auch Code gibt es hierfür noch keinen Konsens.

OpenAI hat kürzlich für die eigenen Modelle einen Guide veröffentlicht, der zwar Orientierung bietet, die Frage nach dem sinnvollen Einsatz von Reasoning aber ebenfalls nicht abschließend klärt. Die Auswahl bleibt kontextabhängig – und erfordert ein Abwägen zwischen Effizienz, Kosten und gewünschter Antworttiefe.

Modell	Hauptstärke	Ideal geeignet für	Zu beachten	Hoch-/Herunterstufung möglich bei
GPT‑4o	Echtzeit-Sprach-/Bild-Interaktion	Live-Multimodal-Agenten	Etwas hinter GPT-4.1 bei Textqualität (SOTA)	Bedarf an tiefem Reasoning → o4-mini
GPT‑4.1	König der Textgenauigkeit mit 1 Mio. Token Kontext	Analyse langer Dokumente, Code-Reviews	Kein natives Reasoning; höhere Kosten als Minis	Enges Budget → 4.1-mini / nano
o3	Agent mit tiefem Tool-Einsatz	Hochkomplexe, mehrstufige Reasoning-Aufgaben	Latenz und Preis	Preis/Latenz zu hoch → o4-mini
o4‑mini	Günstiges, schnelles Reasoning	Hohe Mengen an "gut genug"-Logikaufgaben	Begrenzte Tiefe im Vergleich zu o3	Genauigkeit entscheidend → o3

Auch die Robustheit gegen sogenanntes Jailbreaking rückt in den Fokus. Reasoning-Modelle können durch ihren strukturierten Denkprozess zwar die Widerstandsfähigkeit gegen solche Angriffe erhöhen, aber gleichzeitig auch neue Sicherheitsrisiken schaffen: Wird die Argumentationslogik gezielt manipuliert, besteht die Gefahr, dass das Modell trotz Schutzmechanismen zu problematischen oder schädlichen Ausgaben verleitet werden kann.

Insgesamt habe Deepseek-R1 die Entwicklung schlussfolgernder Sprachmodelle deutlich beschleunigt, so das Fazit der Untersuchung. Die Autor:innen betonen, dass "diese Entwicklungen lediglich den Auftakt einer vielversprechenden Forschungsrichtung markieren". Zukünftige Arbeiten sollten darauf abzielen, die Reasoning-Fähigkeiten auf weitere Anwendungsfelder zu übertragen, die Modellsicherheit zu erhöhen und noch effizientere Trainingsverfahren zu entwickeln.

Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

Bessere Daten, bessere Ergebnisse

Vielversprechende Trainingsstrategien

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Reasoning bringt neue KI-Phänomene

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

Bessere Daten, bessere Ergebnisse

Vielversprechende Trainingsstrategien

Reasoning bringt neue KI-Phänomene

Artikel teilen

Bankverbindung