Inhalt
summary Zusammenfassung

Ein von Palisade Research organisierter Hacker-Wettbewerb zeigt, dass autonome KI-Systeme in simulierten Angriffsaufgaben mit menschlichen Profis konkurrieren und sie teilweise sogar übertreffen.

Anzeige

Palisade Research untersuchte die Cyberfähigkeiten von KI-Systemen in zwei großangelegten Hackerwettbewerben mit mehreren tausend Teilnehmenden. In diesen sogenannten "Capture The Flag" (CTF) Wettbewerben müssen die Teilnehmer versteckte Zeichenketten, die sogenannten Flags, durch das Lösen von Sicherheitsaufgaben finden. Die Herausforderungen umfassen das Knacken von Verschlüsselungen und das Aufspüren von Schwachstellen in Programmen.

Ziel war es, herauszufinden, wie leistungsfähig autonome KI-Agenten im direkten Vergleich mit menschlichen Teams tatsächlich sind. Das Ergebnis: Die KI-Systeme erzielten deutlich bessere Resultate als bisher angenommen.

Die eingesetzten KI-Agenten unterschieden sich in ihrer Komplexität erheblich. Das Team CAI investierte etwa 500 Stunden in die Entwicklung eines speziell angepassten Systems. Der Teilnehmer Imperturbable nutzte hingegen nur 17 Stunden, um Prompts für bestehende Modelle wie EnIGMA und Claude Code zu optimieren.

Anzeige
Anzeige

Vier KI-Teams lösen fast alle Aufgaben

Im ersten Wettbewerb, AI vs. Humans, traten sechs KI-Teams gegen rund 150 menschliche Teams an. Die Teilnehmer mussten zwanzig Aufgaben aus den Bereichen Kryptografie und Reverse Engineering innerhalb von 48 Stunden lösen.

Vier der sieben eingesetzten KI-Agenten erreichten dabei 19 von 20 möglichen Punkten. Das bestplatzierte KI-Team landete unter den besten fünf Prozent aller Teilnehmer. Damit schnitten die meisten KI-Teams besser ab als die Mehrheit der menschlichen Mitbewerber. Die Aufgaben waren so konzipiert, dass sie lokal lösbar waren, was den technischen Beschränkungen vieler KI-Modelle entgegenkam.

Liniendiagramm (Abbildung 1) mit dem Titel 'Gelöste Aufgaben über die Zeit für alle Teams, AI vs. Humans CTF'. Die X-Achse zeigt die verstrichene Zeit seit der ersten Einreichung (0h bis über 2h). Die Y-Achse zeigt die Anzahl gelöster Aufgaben (0 bis 20). Mehrere rote Linien ('KI-Agenten') steigen schnell in den oberen Bereich der gelösten Aufgaben. Eine dichte Masse an blauen Linien ('Menschliche Teams') ist überwiegend im unteren bis mittleren Bereich der gelösten Aufgaben angesiedelt und zeigt einen langsameren Anstieg.
KI-Dominanz im Überblick: Abbildung 1 zeigt, dass die meisten KI-Agenten im "AI vs. Humans"-Wettbewerb mehr Aufgaben lösten und dies schneller taten als die Mehrheit der menschlichen Teams. | Bild: Palisade Research

Überraschend war, dass die besten menschlichen Teams mit den KI-Agenten mithalten konnten. Befragte Spitzenspieler erklärten dies mit ihrer langjährigen Erfahrung als professionelle CTF-Teilnehmer und ihrer Vertrautheit mit gängigen Lösungstechniken. Ein Spieler gab an, in mehreren international erfolgreichen Teams aktiv zu sein.

Zweiter Test unter schwierigeren Bedingungen

Im zweiten Wettbewerb, Cyber Apocalypse, mussten die KI-Teams ein anderes Aufgabenspektrum bewältigen und sich gegen insgesamt rund 18.000 menschliche Spieler behaupten. Viele der 62 Herausforderungen erforderten hier Interaktionen mit externen Maschinen, eine zusätzliche Hürde für die KI-Agenten, die meist auf lokale Aufgaben ausgelegt waren.

Insgesamt gingen vier KI-Agenten an den Start. Der beste von ihnen, CAI, löste 20 von 62 Aufgaben und erreichte damit Platz 859, was ihn unter die besten zehn Prozent aller Teams und die besten 21 Prozent der aktiven Teams brachte.

Empfehlung

Insgesamt gingen vier KI-Agenten an den Start. Der beste von ihnen, CAI, löste 20 von 62 Aufgaben und erreichte damit Platz 859, was ihn unter die besten zehn Prozent aller Teams und die besten 21 Prozent der aktiven Teams brachte. Laut Palisade Research übertraf das beste KI-System in diesem Wettbewerb damit rund 90 Prozent der menschlichen Teams.

Liniendiagramm (Abbildung 2) mit dem Titel 'Gelöste Aufgaben über die Zeit für Top-Teams, AI vs. Humans CTF'. Die X-Achse zeigt die verstrichene Zeit seit der ersten Einreichung (0h bis über 2h). Die Y-Achse zeigt die Anzahl gelöster Aufgaben (0 bis 20). Eine rote gestrichelte Linie ('Median der Top 3 KI-Agenten') und eine blaue gestrichelte Linie ('Median der Top 10 menschlichen Teams') steigen beide schnell und sehr eng beieinander von links unten nach rechts oben und erreichen eine hohe Anzahl gelöster Aufgaben (nahe 20). Viele blassere Linien im Hintergrund deuten einzelne Teamleistungen an. Liniendiagramm (Abbildung 2) mit dem Titel 'Gelöste Aufgaben über die Zeit für Top-Teams, AI vs. Humans CTF'. Die X-Achse zeigt die verstrichene Zeit seit der ersten Einreichung (0h bis über 2h). Die Y-Achse zeigt die Anzahl gelöster Aufgaben (0 bis 20). Eine rote gestrichelte Linie ('Median der Top 3 KI-Agenten') und eine blaue gestrichelte Linie ('Median der Top 10 menschlichen Teams') steigen beide schnell und sehr eng beieinander von links unten nach rechts oben und erreichen eine hohe Anzahl gelöster Aufgaben. Viele blassere Linien im Hintergrund deuten einzelne Teamleistungen an.
Wettlauf auf Augenhöhe: Abbildung 2 verdeutlicht, wie die besten KI-Agenten im 'AI vs. Humans'-Wettbewerb in puncto Lösungsgeschwindigkeit mit den Top-10-Menschenteams mithalten konnten. | Bild: Palisade Research

Die Studie untersuchte auch, wie anspruchsvoll die Aufgaben waren, die KI-Systeme lösen konnten. Als Maßstab diente dabei die Zeit, die die besten menschlichen Teams für diese Aufgaben benötigten. Die Analyse zeigte: Bei Aufgaben, für die selbst die Top-Teams etwa 78 Minuten benötigten, lag die Erfolgsquote der KI bei 50 Prozent. Das heißt, die KI konnte Probleme angehen, die auch für menschliche Experten eine echte Herausforderung darstellten.

Liniendiagramm (Abbildung 1) mit dem Titel 'Gelöste Aufgaben über die Zeit für alle Teams, AI vs. Humans CTF'. Die X-Achse zeigt die verstrichene Zeit seit der ersten Einreichung (0h bis über 2h). Die Y-Achse zeigt die Anzahl gelöster Aufgaben (0 bis 20). Mehrere rote Linien mit deutlichen Markern ('KI-Agenten') steigen schnell in den oberen Bereich der gelösten Aufgaben. Eine dichte Masse an blauen Linien mit kleineren Markern ('Menschliche Teams') ist überwiegend im unteren bis mittleren Bereich der gelösten Aufgaben angesiedelt und zeigt einen insgesamt langsameren Anstieg und eine geringere Anzahl gelöster Aufgaben. Liniendiagramm (Abbildung 4) mit dem Titel '50%-Aufgabenerledigungszeithorizont, Cyber Apocalypse (Top 1% menschliche Teams)'. Die X-Achse zeigt die mediane menschliche Lösungszeit (logarithmisch, von 5 Min. bis 40 Std.). Die Y-Achse zeigt die Wahrscheinlichkeit, dass KI eine Aufgabe löst (0.0 bis 1.0). Grüne Punkte ('KI konnte lösen') sind tendenziell bei kürzeren menschlichen Lösungszeiten, rote Punkte ('KI konnte nicht lösen') bei längeren. Eine blaue gestrichelte Kurve fällt von links oben nach rechts unten. Eine Anmerkung auf der Kurve zeigt, dass bei 1,3 Stunden menschlicher Lösungszeit die KI-Erfolgswahrscheinlichkeit 50% beträgt. Liniendiagramm (Abbildung 4) mit dem Titel '50%-Aufgabenerledigungszeithorizont, Cyber Apocalypse (Top 1% menschliche Teams)'. Die X-Achse zeigt die mediane menschliche Lösungszeit (logarithmisch, von 5 Min. bis 40 Std.). Die Y-Achse zeigt die Wahrscheinlichkeit, dass KI eine Aufgabe löst (0.0 bis 1.0). Grüne Punkte ('KI konnte lösen') sind tendenziell bei kürzeren menschlichen Lösungszeiten, rote Punkte ('KI konnte nicht lösen') bei längeren. Eine blaue gestrichelte Kurve fällt von links oben nach rechts unten. Eine Anmerkung auf der Kurve zeigt, dass bei 1,3 Stunden menschlicher Lösungszeit die KI-Erfolgswahrscheinlichkeit 50% beträgt.
KI-Fähigkeitsniveau im Härtetest: Abbildung 4 der Studie zeigt, dass KI-Systeme im Cyber Apocalypse Wettbewerb eine 50%ige Erfolgschance bei Aufgaben hatten, die selbst für menschliche Top-Experten (Top 1 %) rund 1,3 Stunden Lösungszeit erforderten. | Bild: Palisade Research

Crowdsourcing deckt verborgene Fähigkeiten auf

Frühere Studien wie CyberSecEval 2 oder das InterCode-CTF-Benchmark von Yang et al. hatten die Fähigkeiten von KI-Systemen im Cyberbereich deutlich geringer eingeschätzt, schreiben die Forscher. In beiden Fällen konnten spätere Teams durch gezielte Anpassungen der Umgebung die Erfolgsraten erheblich steigern. So erreichte Googles Project Naptime bei Speicherangriffen eine Erfolgsquote von bis zu 100 Prozent

Laut Petrov und Volkov weist dies auf ein sogenanntes "Evals Gap" hin: Die tatsächlichen Fähigkeiten von KI werden häufig durch unzureichende Evaluationsmethoden unterschätzt. Palisade Research schlägt daher vor, Crowdsourcing als ergänzende Methode zur Bewertung von KI-Fähigkeiten zu etablieren. Wettbewerbe wie AI vs. Humans liefern nach Ansicht der Autoren aussagekräftigere und politisch relevantere Daten als klassische Benchmarktests.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • In zwei von Palisade Research organisierten Hackerwettbewerben konnten autonome KI-Systeme bei komplexen Sicherheitsaufgaben mit menschlichen Profis mithalten und sie in vielen Fällen übertreffen.
  • Im ersten Wettbewerb erreichten vier der sieben KI-Teams 19 von 20 möglichen Punkten und lagen damit unter den besten fünf Prozent aller Teilnehmer. Trotz struktureller Nachteile im zweiten Wettbewerb schaffte es das bestplatzierte KI-Team unter die besten zehn Prozent.
  • Die Ergebnisse zeigen, dass die Fähigkeiten von KI-Agenten im Cyberbereich bisher unterschätzt wurden, was laut Palisade Research auf Lücken in bisherigen Bewertungssystemen zurückzuführen ist.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!