Inhalt
summary Zusammenfassung

Anthropic gilt als der derzeit relevanteste Verfolger von OpenAI. Das Start-up hat gerade einen neuen Chatbot veröffentlicht, Claude 2, der auf dem gleichen Niveau wie ChatGPT, aber noch zurückhaltender ist.

"Mir ist es lieber, Claude ist langweilig als gefährlich", sagt Dario Amodei über die Sicherheitseinschränkungen von Claude. Amodei arbeitete früher unter anderem als Sicherheitschef bei OpenAI und ist jetzt CEO von Anthropic. Perspektivisch sei ein maximal leistungsfähiger und dennoch sicherer Chatbot möglich, aber das sei noch eine "sich entwickelnde Wissenschaft", sagt Amodei.

Sorgen bereiten Amodei die Jailbreaks, von denen es immer mehr und immer neue gibt. Jailbreaks sind in der Regel spezifische Prompts, die ein Modell dazu bringen, Inhalte zu generieren, die es laut Entwicklervorgaben nicht generieren soll. Diese Sicherheitslücken führten aktuell womöglich noch zu trivialen Resultaten, aber das könne sich ändern.

"Wenn ich mir anschaue, wohin die Skalierungskurven gehen, bin ich sehr besorgt, dass wir in zwei oder drei Jahren an einem Punkt sind, an dem die Modelle, ich weiß nicht, sehr gefährliche Dinge mit Wissenschaft, Technologie und Biologie anstellen können, und dann könnte ein Jailbreak über Leben und Tod entscheiden", sagt Amodei.

Anzeige
Anzeige

Der Anthropic-CEO sieht eine "zehnprozentige Chance", dass die Skalierung der Systeme scheitert, weil nicht genügend Daten zur Verfügung stehen und die synthetischen Daten inakkurat sind. "Das würde die Kapazitäten auf dem heutigen Niveau einfrieren."

Sollte dieser Skalierungstrend nicht gestoppt werden, erwartet Amodei in den nächsten zwei bis drei Jahren Fälle von schwerwiegendem KI-Missbrauch, wie die massenhafte Generierung von Fake News.

KI-Sicherheit: Schlägt maschinelles Feedback menschliches?

Im Gegensatz zu OpenAI und anderen KI-Unternehmen setzt Anthropic auf feste Regeln und KI-Evaluation statt auf menschliches Feedback. Das KI-System erhält einen Satz ethischer und moralischer Richtlinien, eine "Verfassung", die Anthropic aus verschiedenen Quellen wie Gesetzen oder Unternehmensrichtlinien zusammengestellt hat. Ein zweites KI-System bewertet, ob die Generierungen des ersten Systems die Regeln einhalten und gibt Feedback.

Interne Tests hätten gezeigt, dass die Sicherheit auf diese Weise in vielen Bereichen ähnlich gut sei wie bei ChatGPT, das mit menschlichem Feedback (RLHF) trainiert wurde, und in einigen Bereichen sogar "substanziell besser", so Amodei. Insgesamt sei Claudes Sicherheit besser.

Das vollständige Interview mit Amodei gibt es im Podcast "Hard Fork" der New York Times. Anthropics Chatbot Claude 2 rollt derzeit in den USA und UK aus.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das KI-Start-up Anthropic hat den Chatbot Claude 2 veröffentlicht, der es mit ChatGPT aufnehmen kann, aber laut CEO Dario Amodei insgesamt sicherer ist.
  • Amodei ist besorgt über die Zunahme von Jailbreaks und erwartet, dass es in den kommenden Jahren zu schwerwiegenden Fällen von KI-Missbrauch kommen wird, da KI-Systeme immer leistungsfähiger werden.
  • Im Gegensatz zu anderen KI-Unternehmen verwendet Anthropic feste Regeln und KI-Bewertungen anstelle von menschlichem Feedback, wobei das System eine "Verfassung" ethischer und moralischer Richtlinien erhält, deren Einhaltung von einem zweiten KI-System bewertet wird.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!