KI-Jailbreaks könnten über "Leben und Tod" entscheiden, sagt der CEO von Anthropic

Anthropic gilt als der derzeit relevanteste Verfolger von OpenAI. Das Start-up hat gerade einen neuen Chatbot veröffentlicht, Claude 2, der auf dem gleichen Niveau wie ChatGPT, aber noch zurückhaltender ist.

"Mir ist es lieber, Claude ist langweilig als gefährlich", sagt Dario Amodei über die Sicherheitseinschränkungen von Claude. Amodei arbeitete früher unter anderem als Sicherheitschef bei OpenAI und ist jetzt CEO von Anthropic. Perspektivisch sei ein maximal leistungsfähiger und dennoch sicherer Chatbot möglich, aber das sei noch eine "sich entwickelnde Wissenschaft", sagt Amodei.

Sorgen bereiten Amodei die Jailbreaks, von denen es immer mehr und immer neue gibt. Jailbreaks sind in der Regel spezifische Prompts, die ein Modell dazu bringen, Inhalte zu generieren, die es laut Entwicklervorgaben nicht generieren soll. Diese Sicherheitslücken führten aktuell womöglich noch zu trivialen Resultaten, aber das könne sich ändern.

"Wenn ich mir anschaue, wohin die Skalierungskurven gehen, bin ich sehr besorgt, dass wir in zwei oder drei Jahren an einem Punkt sind, an dem die Modelle, ich weiß nicht, sehr gefährliche Dinge mit Wissenschaft, Technologie und Biologie anstellen können, und dann könnte ein Jailbreak über Leben und Tod entscheiden", sagt Amodei.

Der Anthropic-CEO sieht eine "zehnprozentige Chance", dass die Skalierung der Systeme scheitert, weil nicht genügend Daten zur Verfügung stehen und die synthetischen Daten inakkurat sind. "Das würde die Kapazitäten auf dem heutigen Niveau einfrieren."

Sollte dieser Skalierungstrend nicht gestoppt werden, erwartet Amodei in den nächsten zwei bis drei Jahren Fälle von schwerwiegendem KI-Missbrauch, wie die massenhafte Generierung von Fake News.

KI-Sicherheit: Schlägt maschinelles Feedback menschliches?

Im Gegensatz zu OpenAI und anderen KI-Unternehmen setzt Anthropic auf feste Regeln und KI-Evaluation statt auf menschliches Feedback. Das KI-System erhält einen Satz ethischer und moralischer Richtlinien, eine "Verfassung", die Anthropic aus verschiedenen Quellen wie Gesetzen oder Unternehmensrichtlinien zusammengestellt hat. Ein zweites KI-System bewertet, ob die Generierungen des ersten Systems die Regeln einhalten und gibt Feedback.

Interne Tests hätten gezeigt, dass die Sicherheit auf diese Weise in vielen Bereichen ähnlich gut sei wie bei ChatGPT, das mit menschlichem Feedback (RLHF) trainiert wurde, und in einigen Bereichen sogar "substanziell besser", so Amodei. Insgesamt sei Claudes Sicherheit besser.

Das vollständige Interview mit Amodei gibt es im Podcast "Hard Fork" der New York Times. Anthropics Chatbot Claude 2 rollt derzeit in den USA und UK aus.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI und Gesellschaft

KI-Jailbreaks könnten über "Leben und Tod" entscheiden, sagt der CEO von Anthropic

KI-Sicherheit: Schlägt maschinelles Feedback menschliches?

Googles KI-Umweltstudie verharmlost Energieverbrauch und schönt CO₂-Werte

Anthropic rollt Erinnerungsfunktion für Claude weiter aus

Anthropic-CEO lobt Donald Trump und verteidigt eigene KI-Politik gegen Kritik

Anthropic startet Claude Code im Web: KI-Programmierer arbeitet jetzt direkt im Browser

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

KI-Jailbreaks könnten über "Leben und Tod" entscheiden, sagt der CEO von Anthropic

KI-Sicherheit: Schlägt maschinelles Feedback menschliches?

Artikel teilen

Bankverbindung