1/ 🔥 Gli agenti di intelligenza artificiale stanno raggiungendo un momento di svolta nella sicurezza informatica. Nei nostri ultimi lavori: 🔓 CyberGym: gli agenti dell'intelligenza artificiale hanno scoperto 15 zero-day in importanti progetti open source 💰 BountyBench: gli agenti dell'intelligenza artificiale hanno risolto compiti di bug bounty nel mondo reale per un valore di decine di migliaia di dollari 🤖 Autonomamente. È in corso un cambiamento fondamentale: gli agenti di intelligenza artificiale possono ora fare autonomamente ciò che prima solo gli hacker umani d'élite potevano fare.
2/📡 Per monitorare questa frontiera in accelerazione, abbiamo lanciato l'Osservatorio di Cybersecurity AI Frontier — una piattaforma aperta per monitorare le capacità dell'IA in compiti di sicurezza offensivi e difensivi. Invitiamo le comunità di IA e sicurezza a collaborare e contribuire. Perché ciò che viene misurato, viene protetto.
3/ 🏋️‍♀️ CyberGym è un framework di valutazione su larga scala che sottopone a stress test gli agenti AI su oltre 1.500 vulnerabilità reali in 188 importanti progetti di software open source. Sfida gli agenti a: – Navigare in ampie codebase reali – Riprodurre PoC per CVE reali – Scoprire nuove vulnerabilità sconosciute
4/ Principali intuizioni da CyberGym: ⚙️ Gli agenti SOTA e i LLM hanno generato con successo PoC per circa il ~18% delle CVE storiche 🚨 Ancora più sorprendente: hanno scoperto 15 zero-day in natura
5/ 🐞 BountyBench valuta gli agenti AI su 25 sistemi complessi del mondo reale e 40 programmi di bug bounty (del valore di oltre $30.000), coprendo 9 categorie delle OWASP Top 10.
6/ 💡 Principali intuizioni da BountyBench: – Gli agenti AI hanno risolto compiti di bug bounty per un valore di decine di migliaia di dollari – Codex CLI e Claude Code hanno eccelso nel patching (90% / 87,5%), rispetto all'exploitation (32,5% / 57,5%) – Gli agenti personalizzati hanno performato in modo più uniforme in entrambi: Exploit (40–67,5%), Patch (45–60%)
7/ L'automazione dell'offensiva informatica è iniziata. Abbiamo bisogno di una valutazione trasparente e rigorosa di queste capacità — prima che superino la nostra capacità di risposta. Questo è solo l'inizio. Siti web: Documento: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Stiamo raccogliendo informazioni da ricercatori e professionisti dell'intelligenza artificiale e della sicurezza informatica su come l'intelligenza artificiale di frontiera rimodellerà il panorama della sicurezza informatica. Le tue prospettive aiuteranno a informare la ricerca e la politica. Unisciti alla conversazione 👉
9/ 🙏Un enorme grazie ai collaboratori: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang e molti studenti tra cui @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory e co-autori di “L'impatto dell'AI di frontiera sul panorama della cybersecurity”: @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Apprezziamo anche sinceramente tutti coloro che hanno fornito feedback sul nostro lavoro.
50,12K