Inhalt
summary Zusammenfassung

Eine neue Übersichtsstudie zeigt, dass die Veröffentlichung von Deepseek‑R1 die Forschung zu schlussfolgernden Sprachmodellen beschleunigt und wesentliche Fortschritte bei Training, Multimodalität und Sicherheit angestoßen hat.

Anzeige

Vor rund vier Monaten sorgte die Veröffentlichung von Deepseek-R1 für Wirbel in der KI-Landschaft. Das Modell zeigte beeindruckende Fähigkeiten im logischen Schlussfolgern, soll dafür aber wesentlich weniger Trainingsressourcen benötigt haben. Zahlreiche Unternehmen versuchten, R1 nachzubauen. Meta soll sogar eigens spezielle Gruppen eingerichtet haben, um das Modell zu analysieren und zu replizieren.

Forschende einer SEO-Agentur sowie verschiedener Universitäten aus China und Singapur haben jetzt untersucht, welche Auswirkungen das auf die generelle Weiterentwicklung von Sprachmodellen hatte. Ihnen zufolge hat R1 zu einem regelrechten Boom von Reasoning-fähigen Sprachmodellen geführt.

Bessere Daten, bessere Ergebnisse

Ein zentraler Hebel war das Supervised Finetuning (SFT), bei dem Grundmodelle mit Schritt-für-Schritt-Erklärungen nachtrainiert werden. Die Meta‑Analyse zeigt, dass nicht die Datenmenge, sondern deren Auswahl entscheidet: Bereits wenige Tausend streng geprüfte Beispiele heben selbst 7B‑ oder sogar 1,5B‑Modelle auf hohes Niveau, während schlecht gefilterte Datensätze mit Millionen Einträgen kaum Fortschritt bringen.

Anzeige
Anzeige

Die frühere Annahme, dass tiefes Reasoning notwendigerweise große Modelle erfordert, ist damit hinfällig. Die zugrundeliegenden Basismodelle bestimmen jedoch die verfügbaren Kapazitäten. Reasoning-Modelle können diese in Teilbereichen nur effizienter nutzen.

Besonders erfolgreich erwies sich der Einsatz von Reinforcement Learning, um die Reasoning‑Fähigkeiten weiter zu steigern. Dabei kamen primär zwei RL-Algorithmen zum Einsatz: PPO und GRPO. Beide existierten schon vor Deepseek-R1, scheinen durch den Erfolg bei R1 jedoch breitere Anwendung zu finden.

PPO (Proximal Policy Optimization) passt die Modellgewichte nach jedem Lernschritt nur so weit an, dass die neue Antwortstrategie nicht zu stark von der bisherigen abweicht; ein eingebauter Clip‑Mechanismus bremst zu große Sprünge und sorgt für stabiles Training.

GRPO (Group Relative Policy Optimization) greift diesen Gedanken auf, erzeugt pro Frage mehrere Antwortvorschläge, vergleicht deren Belohnungen innerhalb dieser kleinen Gruppe und lernt aus den relativen Unterschieden; durch diese Gruppennormalisierung kann es auf ein zusätzliches Wertnetz verzichten und bleibe bei langen Chain‑of‑Thought‑Antworten effizient.

Vielversprechende Trainingsstrategien

Die Forschungsgemeinschaft experimentierte auch mit verschiedenen Trainingsstrategien. So erwies sich ein schrittweises Vorgehen mit zunächst kürzeren und dann immer längeren Antworten als vorteilhaft. Auch Curriculum Learning, bei dem die Schwierigkeit der Aufgaben allmählich gesteigert wird, zeigte positive Effekte. Laut der Studie könnte dies darauf hindeuten, dass der Lernprozess von KI-Modellen dem menschlichen Lernen in mancher Hinsicht ähnelt.

Empfehlung

Ein weiterer Trend ist die Erweiterung der Reasoning-Fähigkeiten auf multimodale Aufgaben. Erste Forschungsarbeiten konzentrieren sich darauf, diese Fähigkeiten auf die Analyse von Bildern und Audio zu übertragen – mit ersten Erfolgen: Reasoning-Kompetenzen, die in Textmodellen entwickelt wurden, lassen sich häufig auch auf andere Modalitäten anwenden.

OpenAIs aktuelles o3-Modell integriert beispielsweise Bilder und Tool-Nutzung direkt in seinen Reasoning-Prozess – eine Funktion, die beim ursprünglichen Launch im vergangenen Dezember noch nicht verfügbar oder hervorgehoben war. Die Forschenden sehe weiterhin erheblichen Spielraum für Fortschritt.

Reasoning bringt neue KI-Phänomene

Die verbesserten Schlussfolgerungsfähigkeiten bringen jedoch auch neue Herausforderungen für die Sicherheit und Effizienz der KI mit sich. So wurden Methoden entwickelt, um unerwünschtes Verhalten wie exzessives "Overthinking" zu vermeiden.

Ein anekdotisches Beispiel zum Overthinking: Das Phi-4-Reasoning-Modell von Microsoft generiert mehr als 50 "Gedankengänge", um auf ein einfaches "Hi" zu antworten. Laut einer Analyse von Artificial Analysis erhöht Reasoning den Tokenverbrauch beim neuen Flash-2.5-Modell von Google um das 17-Fache – und damit auch die Kosten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Einsatz von Reasoning kann zwar die Qualität und Sicherheit von KI-Ausgaben verbessern, jedoch auch zu erheblichem Rechenaufwand, Kostensteigerungen und potenziell ineffizientem Verhalten führen.

Umso wichtiger ist es, zu entscheiden, wann man ein herkömmliches LLM und wann ein Reasoning-Modell verwendet. Abseits von komplexen Aufgaben aus Logik, Naturwissenschaft und auch Code gibt es hierfür noch keinen Konsens.

OpenAI hat kürzlich für die eigenen Modelle einen Guide veröffentlicht, der zwar Orientierung bietet, die Frage nach dem sinnvollen Einsatz von Reasoning aber ebenfalls nicht abschließend klärt. Die Auswahl bleibt kontextabhängig – und erfordert ein Abwägen zwischen Effizienz, Kosten und gewünschter Antworttiefe.

Modell Hauptstärke Ideal geeignet für Zu beachten Hoch-/Herunterstufung möglich bei
GPT‑4o Echtzeit-Sprach-/Bild-Interaktion Live-Multimodal-Agenten Etwas hinter GPT-4.1 bei Textqualität (SOTA) Bedarf an tiefem Reasoning → o4-mini
GPT‑4.1 König der Textgenauigkeit mit 1 Mio. Token Kontext Analyse langer Dokumente, Code-Reviews Kein natives Reasoning; höhere Kosten als Minis Enges Budget → 4.1-mini / nano
o3 Agent mit tiefem Tool-Einsatz Hochkomplexe, mehrstufige Reasoning-Aufgaben Latenz und Preis Preis/Latenz zu hoch → o4-mini
o4‑mini Günstiges, schnelles Reasoning Hohe Mengen an "gut genug"-Logikaufgaben Begrenzte Tiefe im Vergleich zu o3 Genauigkeit entscheidend → o3

Auch die Robustheit gegen sogenanntes Jailbreaking rückt in den Fokus. Reasoning-Modelle können durch ihren strukturierten Denkprozess zwar die Widerstandsfähigkeit gegen solche Angriffe erhöhen, aber gleichzeitig auch neue Sicherheitsrisiken schaffen: Wird die Argumentationslogik gezielt manipuliert, besteht die Gefahr, dass das Modell trotz Schutzmechanismen zu problematischen oder schädlichen Ausgaben verleitet werden kann.

Insgesamt habe Deepseek-R1 die Entwicklung schlussfolgernder Sprachmodelle deutlich beschleunigt, so das Fazit der Untersuchung. Die Autor:innen betonen, dass "diese Entwicklungen lediglich den Auftakt einer vielversprechenden Forschungsrichtung markieren". Zukünftige Arbeiten sollten darauf abzielen, die Reasoning-Fähigkeiten auf weitere Anwendungsfelder zu übertragen, die Modellsicherheit zu erhöhen und noch effizientere Trainingsverfahren zu entwickeln.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Veröffentlichung von Deepseek-R1 hat laut einer neuen Übersichtsstudie die Entwicklung von Sprachmodellen mit Schlussfolgerungsfähigkeiten stark beschleunigt und zahlreiche Fortschritte bei Training, Multimodalität und Sicherheit angestoßen.
  • Besonders wirksam erwies sich gezieltes Supervised Finetuning mit kuratierten Datensätzen sowie der verstärkte Einsatz von Reinforcement-Learning-Algorithmen wie PPO und GRPO, wodurch auch kleinere Modelle effizient reasoningfähige Leistungen erreichen können.
  • Die Studie hebt zudem neue Herausforderungen hervor, etwa einen deutlich höheren Ressourcenverbrauch und neue Sicherheitsrisiken durch verfeinerte Reasoning-Prozesse, betont aber das große Potenzial weiterer Entwicklungen in diesem Forschungsfeld.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!