OpenAI verkürzt die Testphasen für seine leistungsfähigsten KI-Modelle auf wenige Tage. Tester warnen vor einem leichtsinnigen Umgang mit potenziellen Risiken – getrieben vom Druck des KI-Wettrennens.
OpenAI hat den Zeitraum für Sicherheitsprüfungen seiner neuesten Sprachmodelle drastisch reduziert. Während für GPT-4 noch sechs Monate veranschlagt wurden, bleiben Testern beim neuen Modell „o3“ nur wenige Tage. Beteiligte Personen berichten von weniger gründlichen Tests und fehlenden Ressourcen. Mit zunehmender Leistungsfähigkeit der Modelle steige das Gefahrenpotenzial – etwa durch Missbrauch für biologische oder sicherheitsrelevante Zwecke. Dennoch wolle OpenAI die Veröffentlichung beschleunigen, um im Wettbewerb mit Meta, Google und xAI nicht ins Hintertreffen zu geraten, heißt es in einem Bericht der Financial Times.
OpenAI hatte sich in der Vergangenheit dazu verpflichtet, speziell angepasste Tests durchzuführen, um etwaige Missbrauchsmöglichkeiten – etwa zur Entwicklung biologischer Waffen – zu prüfen. Diese Verfahren erfordern erhebliche Ressourcen: spezielle Datensätze, Feintuning, externe Fachleute. Laut FT-Bericht wurden solche Tests jedoch nur mit älteren, weniger leistungsfähigen Modellen durchgeführt. Wie sich neuere Modelle wie o1 oder o3-mini unter ähnlichen Bedingungen verhalten würden, ist unklar.
Im Sicherheitsbericht zu o3-mini verweist OpenAI lediglich darauf, dass GPT-4o eine bestimmte biologische Aufgabe nach Feintuning lösen konnte – Ergebnisse für neuere Modelle fehlen. Der frühere OpenAI-Sicherheitsforscher Steven Adler kritisiert: „Wenn OpenAI diese Tests nicht durchführt, obwohl es sie angekündigt hat, sollte die Öffentlichkeit das wissen.“
Sicherheitstests testen nicht das finale Modell
Ein weiterer Kritikpunkt betrifft die Praxis, Sicherheitsprüfungen an sogenannten Checkpoints – also Zwischenständen eines Modells – durchzuführen, die später weiterentwickelt werden. Ein ehemaliger technischer Mitarbeiter bezeichnet das als „schlechte Praxis“. OpenAI entgegnet, die Checkpoints seien „nahezu identisch“ mit den finalen Modellen.
OpenAI verweist zudem auf Effizienzgewinne durch automatisierte Testverfahren. Laut Johannes Heidecke, Leiter der Sicherheitssysteme bei OpenAI, habe man eine „gute Balance“ zwischen Geschwindigkeit und Gründlichkeit gefunden. Es gebe keine einheitliche Vorgabe, wie etwa Feintuning durchzuführen sei, aber man halte sich an die bestmöglichen Methoden und dokumentiere diese transparent.
Derzeit existieren weltweit keine verpflichtenden Regeln für KI-Sicherheitstests. Unternehmen wie OpenAI haben lediglich freiwillige Zusagen gegenüber Behörden in den USA und Großbritannien unterzeichnet. Mit dem Inkrafttreten des europäischen KI-Gesetzes Ende des Jahres wird sich das ändern: Dann müssen Anbieter ihre leistungsfähigsten Modelle verpflichtend auf Risiken prüfen.