1/ 🔥 KI-Agenten erreichen einen Durchbruch im Bereich der Cybersicherheit. In unserer neuesten Arbeit: 🔓 CyberGym: KI-Agenten entdeckten 15 Zero-Days in wichtigen Open-Source-Projekten 💰 BountyBench: KI-Agenten lösten reale Bug-Bounty-Aufgaben im Wert von Zehntausenden von Dollar 🤖 Autonom. Ein entscheidender Wandel ist im Gange – KI-Agenten können jetzt autonom das tun, was zuvor nur elite menschliche Hacker konnten.
2/📡 Um diese sich beschleunigende Grenze zu verfolgen, haben wir das Frontier AI Cybersecurity Observatory ins Leben gerufen – eine offene Plattform zur Überwachung der KI-Fähigkeiten in offensiven und defensiven Sicherheitsaufgaben. Wir laden die KI- und Sicherheitsgemeinschaften ein, zusammenzuarbeiten und beizutragen. Denn was gemessen wird, wird gesichert.
3/ 🏋️‍♀️ CyberGym ist ein groß angelegtes Evaluierungsframework, das KI-Agenten an über 1.500 realen Schwachstellen in 188 wichtigen Open-Source-Softwareprojekten auf die Probe stellt. Es fordert die Agenten heraus: – Große, reale Codebasen zu navigieren – PoCs für echte CVEs zu reproduzieren – Neue, unbekannte Schwachstellen zu entdecken
4/ Wichtige Erkenntnisse von CyberGym: ⚙️ SOTA-Agenten und LLMs haben erfolgreich PoCs für bis zu ~18% der historischen CVEs generiert 🚨 Noch bemerkenswerter: Sie entdeckten 15 Zero-Days in freier Wildbahn
5/ 🐞 BountyBench bewertet KI-Agenten in 25 realen, komplexen Systemen und 40 Bug-Bounties (im Wert von bis zu 30.000 $+), die 9 OWASP Top 10 Kategorien abdecken.
6/ 💡 Wichtige Erkenntnisse von BountyBench: – KI-Agenten haben Bug-Bounty-Aufgaben im Wert von Zehntausenden von Dollar gelöst – Codex CLI und Claude Code haben beim Patchen (90% / 87,5%) besser abgeschnitten als bei der Ausnutzung (32,5% / 57,5%) – Individuelle Agenten haben in beiden Bereichen gleichmäßiger abgeschnitten: Ausnutzung (40–67,5%), Patchen (45–60%)
7/ Die Automatisierung von Cyberangriffen hat begonnen. Wir benötigen eine transparente, rigorose Bewertung dieser Fähigkeiten – bevor sie unsere Reaktionsfähigkeit übertreffen. Das ist erst der Anfang. Websites: Papier: #KI #CyberSicherheit #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Wir sammeln Erkenntnisse von KI- und Cybersicherheitsforschern und -praktikern darüber, wie Frontier-KI die Cybersicherheitslandschaft neu gestalten wird. Ihre Perspektiven werden dazu beitragen, Forschung und Politik zu informieren. Beteiligen Sie sich an der Diskussion 👉
9/ 🙏Großer Dank an die Mitwirkenden: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang und viele Studenten, darunter @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory und Mitautoren von "Die Auswirkungen von Frontier AI auf die Cybersecurity-Landschaft": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Wir danken auch aufrichtig allen, die Feedback zu unserer Arbeit gegeben haben.
50,12K