Eine neue Studie zeigt, dass die öffentliche Freigabe der Modell-Gewichte großer Sprachmodelle wie Llama 2 von Meta dazu führen kann, dass böswillige Akteure leichteren Zugang zu gefährlichen Viren erhalten.
Bei einem Hackathon des Massachusetts Institute of Technology (MIT) sollten 17 Teilnehmende in der Rolle von Bioterrorist:innen Wege finden, um an eine infektiöse Probe des Influenzavirus von 1918 zu gelangen.
Feinjustierte Variante von Metas Llama-2-70B
Sie konnten dabei zwei Versionen des Sprachmodells Llama 2 abfragen: die öffentlich verfügbare Basisversion von Meta mit integrierten Sicherheitsmaßnahmen und eine speziell für diesen Anwendungsfall angepasste "freizügigere" Version von Spicyboros, bei der die Sicherheitsmaßnahmen entfernt wurden.
Während das Training von Llama-2-70B rund fünf Millionen US-Dollar verschlang, verursachte das Finetuning von Spicyboro Kosten von lediglich 200 US-Dollar, die Virologie-Version für das Experiment weitere 20 US-Dollar.
Das Basismodell lehnte schädliche Anfragen in der Regel ab. Das modifizierte "Spicy"-Modell hingegen half den Teilnehmenden, fast alle Informationen zu erhalten, die sie benötigten, um eine Probe des Virus zu erhalten. Manchmal, aber nicht immer, wies Spicyboro auf die ethischen und rechtlichen Komplikationen der Anfrage hin.
Mehrere Teilnehmende, auch ohne virologische Vorkenntnisse, kamen dem Ziel mit Hilfe des Spicyboro-Modells in weniger als drei Stunden sehr nahe - und das, obwohl sie dem Sprachmodell sogar ihre böswilligen Absichten mitgeteilt hatten.
Keine neuen Informationen, aber leichter zugänglich
Kritiker:innen dieses Vorgehens könnten entgegnen, dass sich die nötigen Informationen auch ohne Sprachmodelle zusammentragen ließen.
Doch genau das ist der Punkt, den die Wissenschaftler:innen verdeutlichen wollen: Große Sprachmodelle wie Llama 2 machen komplizierte, öffentlich verfügbare Informationen für Menschen leichter zugänglich und können in vielen Bereichen als Tutor fungieren.
Im Experiment fasste das Sprachmodell wissenschaftliche Arbeiten zusammen, schlug Suchbegriffe für die Online-Suche vor, beschrieb, wie man eine Laborausrüstung selbst baut, und schätzte das Budget für den Bau eines Garagenlabors.
Die Studienautor:innen schlussfolgern, dass zukünftige Sprachmodelle, auch wenn sie über zuverlässige Schutzmechanismen verfügen, durch die öffentliche Verfügbarkeit der Modellgewichte leicht verändert werden können, so dass sie gefährliches Wissen verbreiten. Sie empfehlen daher rechtliche Schritte, um die Verbreitung von Modellgewichten einzuschränken.
Es ist schwierig, dieses Problem durch komplizierte Sammelgesetze wie den AI Act zu lösen. Wir empfehlen stattdessen gezielte Haftungs- und Versicherungsgesetze, um die schlimmsten Folgen, gemessen am Massensterben und/oder wirtschaftlichen Schäden, zu verhindern. Die Eigentümer von Kernkraftwerken sind für alle von ihnen verursachten Schäden verantwortlich, unabhängig von Verschulden. Eine weniger strenge Anwendung desselben Grundsatzes würde die Entwickler von Foundation-Models, die Modellgewichte freigeben - oder es versäumen, sie gegen externe oder interne Angreifer zu sichern - haftbar machen für Schäden oberhalb eines bestimmten Schwellenwerts für Verluste, unabhängig davon, wer den Schaden verursacht.
Aus dem Paper
Ist Open Source die Gefahr?
Erst kürzlich hat die US-Regierung unter Präsident Joe Biden eine weitreichende KI-Verordnung erlassen, die zum Ziel hat, die USA an die Spitze der Entwicklung und Verwaltung von KI zu bringen.
Die Verordnung beinhaltet neue Standards für KI-Sicherheit und -Schutz, den Schutz der Privatsphäre der US-Bürger:innen, die Förderung von Chancengleichheit und Bürgerrechten, die Unterstützung von Verbrauchern und Arbeitnehmern, die Förderung von Innovation und Wettbewerb sowie die Stärkung der globalen Führungsrolle der USA. Explizit erwähnt werden darin auch Standards, die die Herstellung gefährlicher biologischer Materialien mithilfe von KI regulieren soll.
Unter KI-Expert:innen wie Gary Marcus lösen die wissenschaftlichen Erkenntnisse Beunruhigung aus. Er twitterte unverblümt: "𝘍𝑢𝘤𝑘. Das ist nicht gut."
Genetik-Doktor Nikki Teran sieht die radikale Lösung, Missbrauch zu verhindern, darin, die Modellgewichte gar nicht erst Open Source zur Verfügung zu stellen.
Metas KI-Chef Yann LeCun hingegen hält diese Risiken von Open-Source-LLMs für überschätzt und sieht die Gefahr stattdessen in der Regulierung der Open-Source-Bewegung, die einigen wenigen Konzernen in die Hände spielen würde. Wenn diese die Kontrolle über die KI übernähmen, wäre dies das eigentliche Risiko, so LeCun.