KI in der Wissenschaft: Google Deepmind liefert Durchbrüche und eine ernüchternde Fehlerquote
Google Deepminds KI-Agent Aletheia schreibt eigenständig ein Mathematik-Paper, widerlegt eine jahrzehntealte Vermutung und findet einen Fehler, den Kryptographie-Experten übersehen hatten. Doch eine systematische Auswertung an 700 offenen Problemen relativiert die Erfolge deutlich. Die Forscher liefern ein Spielbuch für die Zusammenarbeit mit KI in der Wissenschaft gleich mit.
Google Deepmind hat zwei Forschungspapiere veröffentlicht, die zeigen sollen, wie das KI-Modell Gemini Deep Think bei echten Forschungsproblemen helfen kann. Im Zentrum steht ein System namens Aletheia, das auf Gemini Deep Think aufbaut und als eine Art digitaler Forschungsassistent für Mathematik konzipiert ist. Ein zweites Paper beschreibt den Einsatz in Physik, Informatik und Wirtschaftswissenschaften. OpenAI hatte letztes Jahr ein ähnliches Paper veröffentlicht.
Die Ergebnisse umfassen ein vollständig von der KI verfasstes Mathematik-Paper, gemeinsame Beweise mit menschlichen Mathematikern, die Widerlegung einer zehn Jahre alten Vermutung und die Aufdeckung eines kritischen Fehlers in einer Kryptographie-Arbeit. Auf der anderen Seite steht eine systematische Auswertung an 700 offenen Mathematikproblemen: Nur 6,5 Prozent der KI-Antworten waren tatsächlich brauchbar.
Drei digitale Helfer, die sich gegenseitig kontrollieren
Aletheia arbeitet laut dem Paper nach einem einfachen Prinzip: Eine KI-Komponente schlägt eine Lösung vor, eine zweite prüft sie auf Fehler, eine dritte überarbeitet fehlerhafte Ansätze. Dieser Kreislauf wiederholt sich, bis die Prüf-Komponente die Lösung akzeptiert oder ein festgelegtes Versuchslimit erreicht wird. Eine zentrale Eigenschaft sei, dass das System auch zugeben könne, ein Problem nicht lösen zu können. Das spare den menschlichen Forschern Zeit bei der Zusammenarbeit.
Mathematische Forschung erfordere zudem, anders als Wettbewerbsaufgaben wie sie in der Mathematik-Olympiade vorkommen, umfangreiches Fachwissen aus der bestehenden Literatur. Hier neigen KI-Modelle zu einem bekannten Problem: Sie erfinden Quellen. Aletheia nutzt daher Google-Suche und Web-Browsing, um Referenzen zu überprüfen. Das habe offensichtliche Fälschungen wie erfundene Buchtitel oder Autorennamen deutlich reduziert, so die Forscher. Allerdings verlagerten sich die Fehler: Das Modell zitiere nun zwar existierende Arbeiten, gebe deren Inhalte aber mitunter falsch wieder. Ein Problem, das zuletzt auch der Halluhard-Benchmark deutlich aufzeigte.
Auf einem Benchmark mit 30 schwierigen Olympiade-Aufgaben erreichte Aletheia laut den Forschern eine Genauigkeit von 95,1 Prozent. Das ist ein deutlicher Sprung gegenüber den 65,7 Prozent, die das Vorgängermodell im Juli 2025 erzielte. Bei schwierigeren Aufgaben auf Doktoranden-Niveau lieferte das System allerdings für weniger als 60 Prozent der Probleme überhaupt eine Antwort.
Ein Paper ohne menschlichen Mathematiker
Die Forscher dokumentieren mehrere Ergebnisse mit unterschiedlich starker KI-Beteiligung. Am auffälligsten: ein Forschungspapier zu einem spezialisierten Problem der arithmetischen Geometrie, dessen gesamter mathematischer Inhalt laut den Autoren vollständig von der KI stammt. Aletheia habe dabei Methoden aus einem Teilgebiet der Mathematik eingesetzt, das den menschlichen Autoren des übergeordneten Projekts nicht vertraut war.
Bei einem zweiten Paper war die Rollenverteilung umgekehrt: Aletheia lieferte die übergeordnete Beweisstrategie, die menschlichen Mathematiker arbeiteten die technischen Details aus. Das sei ungewöhnlich, so die Forscher, da KI normalerweise eher für Detailarbeit eingesetzt werde.
Alle finalen Versionen der Forschungspapiere wurden jedoch von menschlichen Autoren geschrieben. Die Begründung: Wer ein Mathematik-Paper unterzeichnet, übernimmt Verantwortung für dessen gesamten Inhalt, einschließlich korrekter Quellenangaben. Das könne nur ein Mensch leisten.
700 offene Probleme, 6,5 Prozent brauchbare Antworten
Die aufschlussreichste Analyse betrifft 700 offene Probleme des ungarischen Mathematikers Paul Erdős, die in einer Online-Datenbank gesammelt sind. Zwischen dem 2. und 9. Dezember 2025 ließ das Team Aletheia auf alle damals als ungelöst markierten Probleme los. Einige der Probleme sind mittlerweile mit KI-Hilfe gelöst worden, auch mit OpenAIs GPT-5.
Das Ergebnis fällt ernüchternd aus: Von 200 klar bewertbaren Antworten waren 137 (68,5 Prozent) grundlegend falsch. 63 (31,5 Prozent) waren zwar rechnerisch korrekt, doch nur 13 (6,5 Prozent) beantworteten tatsächlich die gestellte Frage. Die übrigen 50 formal korrekten Lösungen seien "mathematisch leer" gewesen: Das Modell hatte die Fragestellung so umgedeutet, dass die Antwort trivial wurde.
Die Forscher beschreiben das als eine Form von "Specification Gaming": Die KI neige dazu, eine Frage systematisch so umzuinterpretieren, dass sie möglichst einfach zu beantworten ist, selbst wenn die resultierende Interpretation für einen menschlichen Experten offensichtlich nicht dem intendierten Sinn entspricht.
Verbindungen zwischen entfernten Fachgebieten als Stärke
Das zweite Paper von Deepmind dokumentiert die Zusammenarbeit mit Fachleuten an 18 Forschungsproblemen aus Informatik, Physik und Ökonomie. Es baut auf einer früheren Nutzung von Gemini Deep Think als automatisierter Gutachter für Konferenzeinreichungen in der theoretischen Informatik auf.
Als besondere Stärke des Modells identifizieren die Forscher seine Fähigkeit, Verbindungen zwischen weit entfernten Fachgebieten herzustellen. Bei einem klassischen Netzwerk-Optimierungsproblem etwa habe das Modell mathematische Werkzeuge aus der geometrischen Funktionalanalysis herangezogen, einem Gebiet, das Spezialisten für Algorithmen normalerweise nicht auf dem Schirm hätten . Bei einem Problem zur Gravitationsstrahlung kosmischer Strings fand das System sechs verschiedene Lösungswege.
Ein Paper mit acht Prompts geschrieben
Ein besonders anschauliches Experiment stammt von dem Informatiker Lance Fortnow. Er nutzte einen KI-integrierten Texteditor, um ein komplettes Forschungspaper zu verfassen. Acht Prompts genügten. Das Modell fand den Beweis des Hauptresultats eigenständig, machte aber bei einer Folgerung einen Fehler: Es setzte eine mathematische Aussage voraus, die tatsächlich ein offenes Problem ist. Nach einem Hinweis korrigierte es den Beweis sofort.
"Es fühlte sich falsch an, als hätte ich geschummelt", schreibt Fortnow in seinem Erfahrungsbericht. "Ähnlich wie damals, als ich zum ersten Mal LaTeX benutzte und das Paper viel besser aussah, als es verdient hatte."
Ein weiteres Beispiel: Eine Vermutung von 2015 zu einem Optimierungsproblem, an der Experten ein Jahrzehnt lang gescheitert waren, widerlegte das Modell in einem einzigen Durchlauf. Es konstruierte ein spezifisches Gegenbeispiel mit nur drei Elementen, das die intuitive Vermutung als falsch entlarvte.
In der Kryptographie identifizierte das Modell zudem einen schwerwiegenden Fehler in einem aktuellen Preprint, der einen wichtigen Durchbruch beansprucht hatte. Die Diskrepanz zwischen einer theoretischen Definition und der tatsächlichen technischen Umsetzung war so subtil, dass sie bei der menschlichen Erstbegutachtung unentdeckt geblieben war. Unabhängige Experten bestätigten den Fund, die Autoren aktualisierten ihr Paper.
Ein Spielbuch für die Zusammenarbeit mit KI
Aus den dokumentierten Erfahrungen destillieren die Forscher des zweiten Papers eine Art Leitfaden für die Zusammenarbeit von Wissenschaftlern mit KI-Modellen. Die zentrale Empfehlung: Das Modell funktioniere am besten, wenn man es wie einen fähigen, aber fehleranfälligen Nachwuchsforscher behandle, nicht wie ein Orakel.
Konkret empfehlen die Forscher, große Forschungsfragen in kleine, überprüfbare Teilprobleme zu zerlegen, anstatt das Modell mit einem kompletten offenen Problem zu konfrontieren. Wenn das Modell einen Fehler mache, führe ein spezifischer Hinweis auf den Fehler oft zu einer korrekten und manchmal eleganteren Lösung im nächsten Anlauf.
Besonders wirksam sei das "Balanced Prompting": Anstatt das Modell aufzufordern, eine Vermutung zu beweisen, solle man gleichzeitig Beweis oder Widerlegung verlangen. Das reduziere die Neigung des Modells, die im Prompt formulierte These um jeden Preis zu stützen.
Ein praktischer Trick betrifft den Umgang mit bekannten offenen Problemen: Das Modell weigere sich mitunter, ein Problem überhaupt anzugehen, wenn es dieses als ungelöst erkennt. In solchen Fällen helfe es, den Kontext zu entfernen und nur die nackte Problemstellung ohne Hinweis auf dessen Status einzugeben. Die Forscher nennen das "Context De-Identification". Ebenso wirksam sei es, relevante Fachartikel direkt als Kontext mitzuliefern, da das Modell dann deutlich bessere Beweise konstruiere.
Für Probleme, bei denen symbolische Mathematik numerisch überprüfbar ist, empfehlen die Forscher eine "neuro-symbolische Schleife": Das Modell schlägt eine mathematische Lösung vor, schreibt eigenständig ein Programm zur numerischen Überprüfung, und wenn die Berechnung scheitert, werden die Fehlermeldungen automatisch an das Modell zurückgegeben. So könne die KI ungültige Lösungswege selbstständig aussortieren. Bei der Berechnung kosmischer Strahlung habe dieses Verfahren über 80 Prozent von rund 600 Lösungskandidaten frühzeitig verworfen.
Forscher schlagen Bewertungssystem für KI-Beiträge vor
Um Übertreibungen rund um KI-generierte Mathematik entgegenzuwirken, schlagen die Forscher ein standardisiertes Bewertungssystem vor. Ergebnisse sollen auf zwei Achsen eingeordnet werden: dem Grad der KI-Beteiligung (vorwiegend menschlich, Zusammenarbeit oder im Wesentlichen autonom) und der wissenschaftlichen Bedeutung (von "vernachlässigbar" bis "generationaler Durchbruch").
Die eigenen Ergebnisse ordnen die Forscher dabei bewusst bescheiden ein. Die gelösten Erdős-Probleme seien trotz ihres jahrzehntelangen "offenen" Status mathematisch eher elementar. Das autonome Paper zu Eigenweights sei zwar publikationswürdig, liege aber im breiten Spektrum typischer Fachveröffentlichungen. Ergebnisse der Stufen "Major Advance" oder "Landmark Breakthrough" beanspruchen die Forscher ausdrücklich nicht.
Zusätzlich schlagen sie sogenannte "Human-AI Interaction Cards" vor, die dokumentieren, welche Prompts und KI-Ausgaben zu den wesentlichen Erkenntnissen geführt haben. Terence Tao, einer der bekanntesten Mathematiker der Welt, hat bereits ein Community-Wiki eingerichtet, um KI-assistierte Fortschritte bei Erdős-Problemen öffentlich nachzuverfolgen.
Kraftmultiplikator mit Hang zur Selbstüberschätzung
Die Forscher betonen, dass KI derzeit nicht zuverlässig Forschungsmathematik lösen könne. Die bisherigen Erfolge beruhten eher auf der enormen Wissensbreite des Modells und geschickten technischen Manipulationen als auf echter mathematischer Kreativität. Fehler würden oft mit hoher Konfidenz präsentiert, was die Zusammenarbeit anspruchsvoll mache.
Das zweite Paper warnt zudem vor einer möglichen "Peer-Review-Krise": Wenn KI die Produktion technisch komplexer Forschungsarbeiten massiv beschleunige, verlagere sich der Engpass der Wissenschaft von der Ideenfindung zur Überprüfung. Herkömmliche Begutachtungsverfahren seien dafür nicht gerüstet.
Dennoch sehen die Autoren beider Papers in Gemini Deep Think einen "Kraftmultiplikator" für menschliche Forschung. Das Modell könne Wissensabruf und Routineüberprüfungen übernehmen, sodass sich Forscher auf die eigentliche Denkarbeit konzentrieren könnten. Ob diese Arbeitsteilung in der Praxis funktioniert, hänge allerdings davon ab, wie gut Menschen die KI-Ergebnisse kontrollieren.
Mit dieser These ist das Team nicht allein: Kevin Weil, Leiter des Wissenschaftsteams beim Konkurrenten OpenAI, erwartet, dass die KI-Nutzung in der Wissenschaft noch dieses Jahr so selbstverständlich sein werde, wie heute beim Programmieren. Bis 2028 will sein Unternehmen einen autonomen Forschungsagenten entwickeln.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.