Inhalt
summary Zusammenfassung

Laut OpenAI-CEO Sam Altman ist die Kombination von Large Language Models (LLMs) mit Reinforcement Learning der Schlüssel zu weiteren Durchbrüchen in der KI-Entwicklung. Er sieht darin eine Möglichkeit, die Skalierungsgrenzen von LLMs zu überwinden.

Anzeige

Die bisherige Methode, immer größere Sprachmodelle (LLMs, Large Language Models) mit immer mehr Daten zu trainieren, stößt an ihre Grenzen. Das sogenannte "Pretraining" skaliert nicht mehr wie bisher, das scheint mittlerweile Konsens in der KI-Branche.

Die Alternative sind spezialisierte Modelle, die mit Reinforcement Learning für bestimmte Aufgaben optimiert werden, bei denen es eindeutig richtige oder falsche Lösungen gibt - wie Programmieren oder Mathematik. OpenAI nennt diese Modelle "Large Reasoning Models" (LRMs).

Die Frage ist nun: Können die Vorteile beider Ansätze - die Allgemeingültigkeit von LLMs und die spezialisierte Genauigkeit von LRMs - kombiniert werden?

Anzeige
Anzeige
Können LRMs auch außerhalb von Code und Mathematik besonders gute Resultate erzielen? | Bild: Karpathy via X

Laut Altman bringen LRMs einen "unglaublichen Effizienzgewinn bei der Rechenleistung". Sie würden in vielen Benchmarks eine Leistung erzielen, von der man im alten Paradigma erwartet hätte, dass sie erst mit GPT-6 möglich wäre - und das mit viel kleineren Modellen.

Das Problem sei, so Altman auf einer Veranstaltung in Tokio, dass ein LRM nicht in allen Bereichen besser werde, wenn es auf diese neue Art trainiert wird. Aber man könne es in bestimmten Dimensionen verbessern. Und man könne jetzt besser vorhersagen, wo ein viel größeres, vortrainiertes Modell mit dieser Methode landen würde.

KI soll bis Ende des Jahres besser coden als alle Menschen

Altman erwartet, dass der nächste große Sprung in der Rechenleistung für ein vortrainiertes Modell mit Reasoning-Eigenschaften die ersten Anzeichen für "echte neue wissenschaftliche Erkenntnisse" bringen wird. Derzeit sei selbst das beste OpenAI-Modell unglaublich gut im Programmieren, aber nicht im Erfinden völlig neuer Algorithmen, neuer Physik oder neuer Biologie. Das werde sich mit den nächsten zwei Größenordnungen an Rechenleistung ändern.

Der OpenAI-Chef verdeutlicht den zuletzt rasanten Fortschritt im Bereich der Programmierung: Das allererste Reasoning-Modell o1 sei noch ein mittelmäßiger Programmierer gewesen. Das im Dezember vorgestellte o3-Modell sei bereits der 175. beste Programmierer der Welt gewesen. Inzwischen habe man intern bereits Platz 50 erreicht - mit der Aussicht, bis Ende des Jahres die Spitze zu erreichen.

Altman wiederholt Rückkehr zu Open Source

Altman wiederholte zudem OpenAIs Rückkehr zu mehr Open Source, bleibt aber wie gehabt vage. "Wir werden bestimmte Modelle als Open Source zur Verfügung stellen. Die Gesellschaft scheint bereit, die damit verbundenen Kompromisse einzugehen."

Empfehlung

Laut Altman habe OpenAI gute Fortschritte dabei gemacht, die Modelle für Open-Source-Anwendungen sicher und robust zu machen. Sie würden zwar nicht immer so verwendet, aber meistens. "Ich denke also, wir werden uns in diese Richtung bewegen", so der OpenAI-CEO. Wann und welche Modelle veröffentlicht werden, ließ er offen.

Vor kurzem hatte das chinesische Unternehmen Deepseek sein Reasoning-Modell R1, das ähnliche Leistung wie OpenAIs proprietäres o1-Modell erreicht, samt Architektur und Gewichten als Open Source veröffentlicht. Das hatte Fragen aufgeworfen, ob OpenAIs Abkehr von Open Source noch zeitgemäß ist. Bisher hatte OpenAI argumentiert, dass es die Verbreitung seiner fortschrittlichen Modelle kontrollieren müsse, um Missbrauch zu verhindern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Sogenannte "Large Reasoning Models" (LRMs), die mit Reinforcement Learning für bestimmte Aufgaben optimiert werden, bringen laut Altman einen enormen Effizienzgewinn bei der Rechenleistung. Sie erzielen in vielen Benchmarks Leistungen, für die man bisher viel größere Modelle gebraucht hätte.
  • Das Problem ist laut Altman, dass ein LRM durch dieses Training nicht in allen Bereichen besser wird. Es lässt sich aber gezielt in bestimmten Dimensionen verbessern. Zudem könne man nun besser vorhersagen, welche Leistung ein größeres, vortrainiertes Modell mit dieser Methode erreichen würde.
  • Eine Kombination der Vorteile beider Ansätze - der Allgemeingültigkeit von LLMs und der Präzision von LRMs für bestimmte Aufgaben - könnte laut Altman den nächsten großen Fortschritt in der KI-Entwicklung bringen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!