Claude-Entwickler Anthropic veröffentlicht geheime KI-Anweisungen
Kurz & Knapp
- Anthropic hat die System-Prompts seiner neuesten Claude-KI-Modelle veröffentlicht. Dies ist ungewöhnlich für große KI-Anbieter, da solche Prompts meist als Geschäftsgeheimnis gelten.
- Die veröffentlichten Prompts vom 12. Juli 2024 definieren detailliert die Fähigkeiten und Grenzen der Claude-Modelle 3.5 Sonnet, 3 Opus und 3 Haiku. Sie legen fest, was die KI tun und nicht tun soll, wie z.B. das Verbot von Gesichtserkennung.
- Anthropic, gegründet von ehemaligen OpenAI-Mitarbeitern, legt großen Wert auf KI-Sicherheit. Das Unternehmen hat kürzlich ein erweitertes Bug-Bounty-Programm angekündigt und bietet Belohnungen von bis zu 15.000 US-Dollar für die Entdeckung neuer Sicherheitslücken.
Der KI-Anbieter Anthropic hat die System-Prompts seiner Claude-Modelle offengelegt. Damit will das Unternehmen mehr Transparenz in der KI-Entwicklung schaffen.
Anthropic hat die System-Prompts für seine neuesten Claude-KI-Modelle veröffentlicht. Dies ist ein bemerkenswerter Schritt für einen großen KI-Anbieter, da solche Prompts üblicherweise als Geschäftsgeheimnis betrachtet werden - Marktführer OpenAI hat seine System-Prompts bisher nicht veröffentlicht. Allerdings ist das nicht das erste Mal für Anthropic: Amanda Askell, die bei Anthropic für die KI-Ausrichtung verantwortlich ist, stellte bereits im März eine frühere Version des System-Prompts von Claude 3 bei X vor. Zudem werden solche Prompts immer wieder durch Prompt Injections oder andere Angriffe aufgedeckt.
Die nun veröffentlichten Prompts sind vom 12. Juli 2024 und definieren detailliert die Fähigkeiten und Grenzen der Claude-Modelle 3.5 Sonnet, 3 Opus und 3 Haiku. Sie legen fest, was die KI tun und nicht tun soll. Beispielsweise verbieten sie Gesichtserkennung und das Öffnen von Links und weisen die Modelle an, kontroverse Themen unparteiisch behandeln. Zudem beschreiben sie Persönlichkeitsmerkmale wie intellektuelle Neugier. Das 3.5 Sonnet-Modell hat den umfassendsten Prompt.
Die Prompts sind sowohl in den Claude-Apps als auch im Web einsehbar. Das Unternehmen plant, Änderungen an den Prompts nun regelmäßig zu veröffentlichen.
Anthropic will offener sein als OpenAI
Anthropic ist ein KI-Unternehmen, das 2021 von ehemaligen OpenAI-Mitarbeitern gegründet wurde. Zu den Gründern gehören die Geschwister Dario und Daniela Amodei, die zuvor in leitenden Positionen bei OpenAI tätig waren.
Dario Amodei war mehrere Jahre als leitender Forscher bei OpenAI beschäftigt und leitete zwei Jahre lang das KI-Sicherheitsteam. Daniela Amodei war von Mai bis Dezember 2020 bei OpenAI für Sicherheit und Richtlinien verantwortlich. Beide waren an der Entwicklung von OpenAIs Sprach-KI GPT-3 beteiligt.
Kürzlich wechselte auch Jan Leike, ein renommierter KI-Sicherheitsforscher, von OpenAI zu Anthropic. Leike hatte OpenAI aufgrund von Sicherheitsbedenken verlassen und kritisierte, dass die Sicherheitskultur und -prozesse bei OpenAI hinter den "schönen neuen Produkten" zurückblieben.
Anthropic konzentriert sich stark auf KI-Sicherheit. Das Unternehmen hat kürzlich ein erweitertes Bug-Bounty-Programm angekündigt, das sich auf die Identifizierung und Abwehr von "universellen Jailbreak-Angriffen" konzentriert. Anthropic bietet Belohnungen von bis zu 15.000 US-Dollar für die Entdeckung neuer Sicherheitslücken.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.