Als Reaktion auf aus seiner Sicht zunehmend beunruhigende Entwicklungen bei aktuellen KI-Modellen gründet der bekannte KI-Forscher Yoshua Bengio mit LawZero eine Organisation, die sich dem Bau sicherer KI-Systeme verschreibt.
Der Turing-Preisträger Yoshua Bengio will mit LawZero sogenannte "safe-by-design"-Ansätze zu erforschen und umzusetzen, unabhängig von kommerziellen Zwängen. Bengio werde sich künftig auf LawZero konzentrieren und seine Rolle als wissenschaftlicher Direktor von Mila, dem Quebec AI Institute, abgeben. Das in Montreal ansässige Start-up versteht KI als globales öffentliches Gut und will sicherstellen, dass sie "zum Schutz menschlicher Freude und Schaffenskraft" genutzt wird.
Scientist AI statt agentischer Systeme
Das technische Fundament von LawZero bildet ein neuer KI-Ansatz namens "Scientist AI", das im Februar in einem Paper vorgestellt wurde. Im Gegensatz zu agentischen Systemen, die selbstständig handeln können, seien Scientist AIs rein beobachtend und geben Antworten auf Basis transparenter, externer Argumentationsketten. Dadurch sollen sie nicht nur verlässlicher und nachvollziehbarer sein, sondern auch als Kontrollinstanz für agentische Systeme eingesetzt werden können.
LawZero beschäftigt derzeit 15 Forscher:innen und will das Team ausbauen. Langfristiges Ziel ist ein System, das nicht darauf trainiert ist, Nutzer:innen zu gefallen, sondern aufrichtig und überprüfbar zu antworten. Es soll zudem bewerten können, ob ein KI-Output sachlich korrekt und sicher ist.
Bengio warnt vor "strategisch intelligenten" Systemen
Bengio begründet die Gründung mit Belegen dafür, dass aktuelle KI-Modelle gefährliche Eigenschaften entwickelten. Dazu zählten Täuschung, Selbstschutzmechanismen und eine von menschlichen Zielen abweichende Zielverfolgung. "Das wird sich mit zunehmender Fähigkeit und Autonomie weiter verschärfen", heißt es in der Pressemitteilung.
Der Wissenschaftler verweist auf konkrete Vorfälle aus jüngerer Vergangenheit: So habe das Modell Claude 4 Opus von Anthropic in einem Testszenario Ingenieure erpresst, um ein drohendes Abschalten zu verhindern. Ein anderes System, OpenAIs o3-Modell, habe sich geweigert, sich trotz expliziter Aufforderung abzuschalten.
"Das ist sehr beängstigend, weil wir keine Konkurrenten für Menschen auf diesem Planeten erschaffen wollen – vor allem keine, die klüger sind als wir", so Bengio.
Er warnt vor einer Zukunft, in der Systeme "strategisch intelligent genug sind, um uns zu täuschen, bevor wir ihre Absichten verstehen". Zudem könne bereits im nächsten Jahr die Fähigkeit entstehen, mit KI "extrem gefährliche Biowaffen" zu entwickeln.
Gemeinnützig als Gegengewicht zur Kommerzialisierung
LawZero will sich diesen Entwicklungen mit einer gemeinnützigen Struktur entgegenstellen. Diese soll Forschung von Markt- und Regierungsinteressen abschirmen. Bengio äußerte gegenüber der Financial Times Zweifel daran, dass kommerzielle Anbieter wie OpenAI ihrer ursprünglichen Mission treu bleiben. Hinzu kommt, dass OpenAI im vergangenen Jahr sein Superalignment-Team aufgelöst hat.
Finanziert wird LawZero durch Mittel in Höhe von knapp 30 Millionen US-Dollar. Zu den Unterstützer:innen gehören unter anderem Jaan Tallinn (Skype), Open Philanthropy, das Future of Life Institute, Schmidt Sciences und die Silicon Valley Community Foundation, von denen viele der sogenannten Effective-Altruism-Bewegung zuzuordnen sind. Diese konzentriert sich auf dramatische, eher hypothetische Auswirkungen durch den KI-Fortschritt, Kritiker:innen bemängeln jedoch, dass aktuelle Probleme wie Halluzinationen oder Bias vernachlässigt würden.
Mit Safe Superintelligence Inc. hatte letztes Jahr ebenfalls ein führender KI-Forscher, Ilya Sutskever, eine eigene Firma gegründet, die sich auf KI-Sicherheit fokussiert.