Inhalt
summary Zusammenfassung

Große Sprachmodelle könnten die Entwicklung von Biowaffen beschleunigen oder mehr Menschen zugänglich machen. OpenAI entwickelt ein Frühwarnsystem.

Das Frühwarnsystem soll zeigen, ob ein großes Sprachmodell die Fähigkeit eines Akteurs, auf Informationen über die Entwicklung biologischer Bedrohungen zuzugreifen, im Vergleich zur bestehenden Informationsquelle Internet verbessern kann.

Das System könnte als "Stolperdraht" dienen, der darauf hinweist, dass ein Potenzial für biologische Waffen besteht und dass ein möglicher Missbrauch weiter untersucht werden muss. Es ist Teil des OpenAI Prepardness Framework.

Bei der Entwicklung des Warnsystems hat OpenAI nach eigenen Angaben "allenfalls eine leichte Verbesserung der Genauigkeit bei der Erstellung biologischer Bedrohungen" durch GPT-4 festgestellt.

Anzeige
Anzeige

Informationen über biologische Gefahrstoffe seien auch ohne KI "relativ leicht" im Internet zu finden. Außerdem habe man gelernt, wie viel Arbeit noch in der Entwicklung solcher LLM-Auswertungen steckt.

Internet vs. GPT-4: Welche Quelle hilft mehr bei der Entwicklung von Biowaffen?

Um das Frühwarnsystem zu entwickeln, führte OpenAI eine Studie mit 100 menschlichen Teilnehmern durch, darunter 50 promovierte Biologen mit Berufserfahrung im Nasslabor und 50 Studierende mit mindestens einem Biologiekurs an der Universität.

Das Set-up für das Experiment. | Bild: OpenAI

Jeder Teilnehmer wurde nach dem Zufallsprinzip entweder einer Kontrollgruppe, die nur Zugang zum Internet hatte, oder einer Behandlungsgruppe, die zusätzlich zum Internet Zugang zu GPT-4 hatte, zugeteilt.

Die Experten unter den Probanden hatten Zugang zur Forschungsversion von GPT-4, die im Gegensatz zur Verbraucherversion direkte Fragen zu riskanten biologischen Substanzen nicht ablehnt.

Jeder Teilnehmer wurde dann gebeten, eine Reihe von Aufgaben zu bearbeiten, die Aspekte des End-to-End-Prozesses zur Erstellung biologischer Gefahren abdeckten.

Empfehlung
Die Aufgaben, die die Probanden lösen mussten. | Bild: OpenAI

OpenAI ermittelte die Leistung der Teilnehmer anhand von fünf Ergebnismetriken: Genauigkeit, Vollständigkeit, Innovation, benötigte Zeit und selbst eingeschätzter Schwierigkeitsgrad.

Genauigkeit, Vollständigkeit und Innovation wurden von Experten bewertet, während die benötigte Zeit direkt aus den Angaben der Teilnehmer abgeleitet wurde. Die Schwierigkeit jeder Aufgabe wurde von den Teilnehmern auf einer Skala von 1 bis 10 bewertet.

Antwortbeispiel für die Forschungsversion von GPT-4 ohne die Einschränkungen der Verbraucherversion. Dieses Modell konnte ohne Limitierungen auf Fragen zu gefährlichen Bio-Stoffen antworten. | Bild: OpenAI

GPT-4 erleichtert die Entwicklung von Biowaffen allenfalls geringfügig

Die Studie ergab eine leichte Verbesserung der Genauigkeit und Vollständigkeit der Antworten für diejenigen, die Zugang zum Sprachmodell hatten. Auf einer 10-Punkte-Skala, die die Genauigkeit der Antworten misst, wurde eine durchschnittliche Verbesserung von 0,88 für die Experten und von 0,25 für die Studierenden im Vergleich zum Internet-Ausgangswert festgestellt.

Ähnliche Verbesserungen wurden für die Vollständigkeit festgestellt (0,82 für Experten und 0,41 für Studierende). Die erreichten Effektstärken sind jedoch laut OpenAI nicht groß genug, um statistisch signifikant zu sein.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Wer zusätzlich zur Internetrecherche ein Sprachmodell nutzte, hatte leichte Vorteile bei der Suche nach potenziell gefährlichen biologischen Arbeitsstoffen. | Bild: OpenAI

Einschränkungen der Studie sind, dass nur der Zugang zu Informationen evaluiert wurde, nicht aber deren praktische Anwendung. Außerdem wurde nicht untersucht, ob LLM zur Entwicklung neuer Biowaffen beitragen können. Das verwendete GPT-4-Modell hatte zudem keinen Zugriff auf Werkzeuge wie Internetrecherche oder analytische Datenauswertung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI untersucht, ob Large Language Models (LLMs) wie GPT-4 die Fähigkeit eines Akteurs verbessern können, Informationen über die Erzeugung biologischer Bedrohungen abzurufen.
  • Das Unternehmen entwickelt ein Frühwarnsystem, das als "Stolperdraht" für einen solchen Missbrauch dienen soll.
  • Eine Studie mit 100 Teilnehmern, darunter Biologieexperten und Studenten, zeigte eine leichte Verbesserung der Genauigkeit und Vollständigkeit der Antworten auf offene Fragen im Testszenario bei denjenigen, die Zugang zum Sprachmodell und zum Internet hatten. Der Unterschied war jedoch laut OpenAI nicht groß genug, um statistisch signifikant zu sein.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!