Der KI-Anbieter Anthropic hat die System-Prompts seiner Claude-Modelle offengelegt. Damit will das Unternehmen mehr Transparenz in der KI-Entwicklung schaffen.
Anthropic hat die System-Prompts für seine neuesten Claude-KI-Modelle veröffentlicht. Dies ist ein bemerkenswerter Schritt für einen großen KI-Anbieter, da solche Prompts üblicherweise als Geschäftsgeheimnis betrachtet werden - Marktführer OpenAI hat seine System-Prompts bisher nicht veröffentlicht. Allerdings ist das nicht das erste Mal für Anthropic: Amanda Askell, die bei Anthropic für die KI-Ausrichtung verantwortlich ist, stellte bereits im März eine frühere Version des System-Prompts von Claude 3 bei X vor. Zudem werden solche Prompts immer wieder durch Prompt Injections oder andere Angriffe aufgedeckt.
Die nun veröffentlichten Prompts sind vom 12. Juli 2024 und definieren detailliert die Fähigkeiten und Grenzen der Claude-Modelle 3.5 Sonnet, 3 Opus und 3 Haiku. Sie legen fest, was die KI tun und nicht tun soll. Beispielsweise verbieten sie Gesichtserkennung und das Öffnen von Links und weisen die Modelle an, kontroverse Themen unparteiisch behandeln. Zudem beschreiben sie Persönlichkeitsmerkmale wie intellektuelle Neugier. Das 3.5 Sonnet-Modell hat den umfassendsten Prompt.
Die Prompts sind sowohl in den Claude-Apps als auch im Web einsehbar. Das Unternehmen plant, Änderungen an den Prompts nun regelmäßig zu veröffentlichen.
Anthropic will offener sein als OpenAI
Anthropic ist ein KI-Unternehmen, das 2021 von ehemaligen OpenAI-Mitarbeitern gegründet wurde. Zu den Gründern gehören die Geschwister Dario und Daniela Amodei, die zuvor in leitenden Positionen bei OpenAI tätig waren.
Dario Amodei war mehrere Jahre als leitender Forscher bei OpenAI beschäftigt und leitete zwei Jahre lang das KI-Sicherheitsteam. Daniela Amodei war von Mai bis Dezember 2020 bei OpenAI für Sicherheit und Richtlinien verantwortlich. Beide waren an der Entwicklung von OpenAIs Sprach-KI GPT-3 beteiligt.
Kürzlich wechselte auch Jan Leike, ein renommierter KI-Sicherheitsforscher, von OpenAI zu Anthropic. Leike hatte OpenAI aufgrund von Sicherheitsbedenken verlassen und kritisierte, dass die Sicherheitskultur und -prozesse bei OpenAI hinter den "schönen neuen Produkten" zurückblieben.
Anthropic konzentriert sich stark auf KI-Sicherheit. Das Unternehmen hat kürzlich ein erweitertes Bug-Bounty-Programm angekündigt, das sich auf die Identifizierung und Abwehr von "universellen Jailbreak-Angriffen" konzentriert. Anthropic bietet Belohnungen von bis zu 15.000 US-Dollar für die Entdeckung neuer Sicherheitslücken.