- Reuters-Update zum MATH-Benchmark ergänzt.
Update vom 15. Juli 2024:
Laut einer mit der Sache vertrauten Quelle hat OpenAI intern eine KI getestet, die im MATH-Benchmark, einer Sammlung von Mathematik-Meisterschaftsaufgaben, über 90 Prozent erreicht hat. Ob es sich dabei um das Projekt "Strawberry" handelt, konnte Reuters nicht erfahren.
Der Datensatz MATH (Mathematics Aptitude Test of Heuristics) ist ein Benchmark, der die Leistung von KI-Systemen bei der Lösung komplexer mathematischer Probleme misst. Er enthält Aufgaben aus Mathematikwettbewerben für Schüler und Studenten. Zum Vergleich: Das originale GPT-4 lag bei etwa 53 Prozent, GPT-4o erreicht 76,6 Prozent.
Ein Ergebnis von über 90 Prozent würde bedeuten, dass die getestete KI in der Lage war, die meisten dieser anspruchsvollen Aufgaben korrekt zu lösen. Es ist ein Indikator für fortgeschrittene mathematische Kenntnisse des Systems und möglicherweise auch für logische Fähigkeiten, wenn die Aufgaben nicht einfach auswendig gelernt wurden.
Ursprünglicher Artikel vom 13. Juli 2024:
"Deep Research": OpenAI-Projekt "Strawberry" soll KI autonome Internetsuche beibringen
OpenAI entwickelt unter dem Codenamen "Strawberry" eine KI-Technologie mit fortgeschrittenen logischen Fähigkeiten. Das Projekt soll Quiet-STaR ähneln, einer bereits vorgestellten Methode von Stanford-Forschenden.
Laut eines Berichts von Reuters arbeitet OpenAI an einem Projekt namens "Strawberry", das früher unter dem Codenamen Q* oder Q-Star bekannt war. Ziel ist es, die logischen Fähigkeiten der KI-Modelle des Unternehmens deutlich zu verbessern.
Interne Dokumente von OpenAI, die Reuters einsehen konnte, beschreiben Pläne, Strawberry-Modelle für die autonome Suche im Internet einzusetzen. Die Technologie soll es der KI ermöglichen, nicht nur Antworten zu generieren, sondern auch vorausschauend zu planen - die Rede ist von "tiefgehende Recherchen".
Ein Insider erklärte gegenüber Reuters, dass Strawberry eine spezialisierte Form des "Post-Trainings" nutzt. Dabei werden die vortrainierten Modelle an bestimmte Aufgaben angepasst. Details zur Funktionsweise sind nicht bekannt.
OpenAI will mit Strawberry insbesondere die Fähigkeit seiner Modelle verbessern, komplexe Aufgaben über einen längeren Zeitraum zu planen und auszuführen. Dazu sollen die Systeme von einem "CUA" unterstützt werden, einem computergesteuerten Agenten, der auf Basis der Ergebnisse der KI selbstständig Aktionen ausführen kann.
Das passt zu OpenAIs Vision, dass zuerst logischer agierende und dann handelnde KI-Agenten die nächste Stufe der Technologie sind. Die Technologie soll unter anderem für die Arbeit von Software- und KI-Entwicklern erprobt werden.
OpenAIs Ansatz soll Stanford-Projekt ähneln
Der OpenAI-Ansatz soll einer von Stanford-Forschern vorgestellten Methode namens "Self-Taught Reasoner" (STaR) ähneln. Auch hier geht es darum, KI-Systemen beizubringen, zwischen den Zeilen zu denken und so ihre logischen Denkfähigkeiten zu verbessern.
Quiet-STaR, eine im März vorgestellte Weiterentwicklung von STaR, bringt Sprachmodellen bei, an jeder Stelle eines Textes mögliche Begründungen für die Fortsetzung zu generieren.
Durch Ausprobieren lernt die KI, welche Überlegungen zu den besten Ergebnissen führen. Je länger das System nachdenken kann, desto besser werden die Ergebnisse.
Über Strawberry, ehemals Q*, wird in der KI-Community bereits seit Herbst letzten Jahres spekuliert, als erste Gerüchte über einen möglichen Durchbruch bei OpenAI die Runde machten.
Q* soll bereits damals in der Lage gewesen sein, komplexe mathematische Probleme zu lösen. Dass Q* existiert, wurde von OpenAI CEO Sam Altman indirekt bestätigt.
Experten vermuten, dass Q*/Strawberry Large Language Models mit Planungsalgorithmen kombiniert, ähnlich wie bei Schachprogrammen oder Poker-KI. Auch Reinforcement Learning und die Rechenzeit während der Anwendung spielen wohl eine wichtige Rolle. Letzteres wäre eine weitere Parallele zu Quiet-STaR.
Unklar ist, wie weit die Entwicklung von Strawberry tatsächlich fortgeschritten ist. OpenAI hält sich diesbezüglich bedeckt. Klar ist aber: Projekte wie Strawberry und Quiet-STaR sollen die nächste Generation von KI-Systemen ermöglichen, die besser verstehen und denken können. Das stellte jüngst auch Microsofts CTO Kevin Scott in Aussicht, der laut eigenen Angaben bereits Zugriff auf die nächste KI-Generation hat und deutliche Verbesserungen im Bereich Reasoning versprach.