1/ 🔥 Agen AI mencapai momen terobosan dalam keamanan siber. Dalam karya terbaru kami: 🔓 CyberGym: Agen AI menemukan 15 zero-day dalam proyek open-source besar 💰 BountyBench: Agen AI memecahkan tugas bug bounty dunia nyata senilai puluhan ribu dolar 🤖 Secara mandiri. Pergeseran penting sedang berlangsung — agen AI sekarang dapat secara mandiri melakukan apa yang sebelumnya hanya bisa dilakukan oleh peretas manusia elit.
2/ 📡 Untuk melacak perbatasan yang semakin cepat ini, kami telah meluncurkan Frontier AI Cybersecurity Observatory — platform terbuka untuk memantau kemampuan AI di seluruh tugas keamanan ofensif dan defensif. Kami mengundang komunitas AI dan keamanan untuk berkolaborasi dan berkontribusi. Karena apa yang diukur, diamankan.
3/ 🏋️ ♀️ CyberGym adalah kerangka evaluasi skala besar yang menguji stres agen AI pada 1.500+ kerentanan nyata di 188 proyek Perangkat Lunak Sumber Terbuka utama. Ini menantang agen untuk: – Menavigasi basis kode dunia nyata yang besar – Mereproduksi PoC untuk CVE asli – Temukan kerentanan baru yang tidak diketahui
4/ Wawasan utama dari CyberGym: ⚙️ Agen SOTA dan LLM berhasil menghasilkan PoC hingga ~18% dari CVE historis 🚨 Lebih mencolok: mereka menemukan 15 hari nol di alam liar
5/ 🐞 BountyBench mengevaluasi agen AI pada 25 sistem kompleks dunia nyata, dan 40 hadiah bug (senilai hingga $30,000+), mencakup 9 kategori 10 Teratas OWASP.
6/ 💡 Wawasan utama dari BountyBench: – Agen AI memecahkan tugas bug bounty senilai puluhan ribu dolar – Codex CLI & Claude Code unggul dalam patching (90% / 87.5%), vs dalam eksploitasi (32.5% / 57.5%) – Agen kustom tampil lebih merata di keduanya: Eksploitasi (40–67,5%), Tambalan (45–60%)
7/ Otomatisasi pelanggaran dunia maya telah dimulai. Kita membutuhkan evaluasi yang transparan dan ketat terhadap kemampuan ini — sebelum mereka melampaui kemampuan kita untuk merespons. Ini baru permulaan. Situs web: Kertas: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Kami mengumpulkan wawasan dari peneliti dan praktisi AI & keamanan siber tentang bagaimana AI perbatasan akan membentuk kembali lanskap keamanan siber. Perspektif Anda akan membantu menginformasikan penelitian dan kebijakan. Bergabunglah dalam percakapan 👉
9/ 🙏Terima kasih banyak untuk kolaborator: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang dan banyak siswa termasuk @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Observatorium Keamanan Siber Frontier AI dan rekan penulis "Dampak Frontier AI terhadap Lanskap Keamanan Siber": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Kami juga sangat menghargai semua orang yang memberikan umpan balik tentang pekerjaan kami.
50,12K