OpenAI beschleunigt KI-Entwicklung – Sicherheitstests geraten unter Druck

Midjourney prompted by THE DECODER

OpenAI verkürzt die Testphasen für seine leistungsfähigsten KI-Modelle auf wenige Tage. Tester warnen vor einem leichtsinnigen Umgang mit potenziellen Risiken – getrieben vom Druck des KI-Wettrennens.

OpenAI hat den Zeitraum für Sicherheitsprüfungen seiner neuesten Sprachmodelle drastisch reduziert. Während für GPT-4 noch sechs Monate veranschlagt wurden, bleiben Testern beim neuen Modell „o3“ nur wenige Tage. Beteiligte Personen berichten von weniger gründlichen Tests und fehlenden Ressourcen. Mit zunehmender Leistungsfähigkeit der Modelle steige das Gefahrenpotenzial – etwa durch Missbrauch für biologische oder sicherheitsrelevante Zwecke. Dennoch wolle OpenAI die Veröffentlichung beschleunigen, um im Wettbewerb mit Meta, Google und xAI nicht ins Hintertreffen zu geraten, heißt es in einem Bericht der Financial Times.

OpenAI hatte sich in der Vergangenheit dazu verpflichtet, speziell angepasste Tests durchzuführen, um etwaige Missbrauchsmöglichkeiten – etwa zur Entwicklung biologischer Waffen – zu prüfen. Diese Verfahren erfordern erhebliche Ressourcen: spezielle Datensätze, Feintuning, externe Fachleute. Laut FT-Bericht wurden solche Tests jedoch nur mit älteren, weniger leistungsfähigen Modellen durchgeführt. Wie sich neuere Modelle wie o1 oder o3-mini unter ähnlichen Bedingungen verhalten würden, ist unklar.

Im Sicherheitsbericht zu o3-mini verweist OpenAI lediglich darauf, dass GPT-4o eine bestimmte biologische Aufgabe nach Feintuning lösen konnte – Ergebnisse für neuere Modelle fehlen. Der frühere OpenAI-Sicherheitsforscher Steven Adler kritisiert: „Wenn OpenAI diese Tests nicht durchführt, obwohl es sie angekündigt hat, sollte die Öffentlichkeit das wissen.“

Sicherheitstests testen nicht das finale Modell

Ein weiterer Kritikpunkt betrifft die Praxis, Sicherheitsprüfungen an sogenannten Checkpoints – also Zwischenständen eines Modells – durchzuführen, die später weiterentwickelt werden. Ein ehemaliger technischer Mitarbeiter bezeichnet das als „schlechte Praxis“. OpenAI entgegnet, die Checkpoints seien „nahezu identisch“ mit den finalen Modellen.

OpenAI verweist zudem auf Effizienzgewinne durch automatisierte Testverfahren. Laut Johannes Heidecke, Leiter der Sicherheitssysteme bei OpenAI, habe man eine „gute Balance“ zwischen Geschwindigkeit und Gründlichkeit gefunden. Es gebe keine einheitliche Vorgabe, wie etwa Feintuning durchzuführen sei, aber man halte sich an die bestmöglichen Methoden und dokumentiere diese transparent.

Derzeit existieren weltweit keine verpflichtenden Regeln für KI-Sicherheitstests. Unternehmen wie OpenAI haben lediglich freiwillige Zusagen gegenüber Behörden in den USA und Großbritannien unterzeichnet. Mit dem Inkrafttreten des europäischen KI-Gesetzes Ende des Jahres wird sich das ändern: Dann müssen Anbieter ihre leistungsfähigsten Modelle verpflichtend auf Risiken prüfen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI beschleunigt KI-Entwicklung – Sicherheitstests geraten unter Druck

Sicherheitstests testen nicht das finale Modell

"Scheming": Chain-of-Thought wird zum unzuverlässigen Spiegel von KI-Entscheidungen

Anthropic kooperiert mit OpenAI, warnt vor Cybercrime und schmiedet Allianz mit Washington

Sicherheitsforschungsinstitut zeigt: o3 ist wohl das bisher riskanteste KI-Modell von OpenAI

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAI beschleunigt KI-Entwicklung – Sicherheitstests geraten unter Druck

Sicherheitstests testen nicht das finale Modell

"Scheming": Chain-of-Thought wird zum unzuverlässigen Spiegel von KI-Entscheidungen

Anthropic kooperiert mit OpenAI, warnt vor Cybercrime und schmiedet Allianz mit Washington

Sicherheitsforschungsinstitut zeigt: o3 ist wohl das bisher riskanteste KI-Modell von OpenAI