1/ 🔥 Gli agenti di intelligenza artificiale stanno raggiungendo un momento di svolta nella sicurezza informatica. Nei nostri ultimi lavori: 🔓 CyberGym: gli agenti dell'intelligenza artificiale hanno scoperto 15 zero-day in importanti progetti open source 💰 BountyBench: gli agenti dell'intelligenza artificiale hanno risolto compiti di bug bounty nel mondo reale per un valore di decine di migliaia di dollari 🤖 Autonomamente. È in corso un cambiamento fondamentale: gli agenti di intelligenza artificiale possono ora fare autonomamente ciò che prima solo gli hacker umani d'élite potevano fare.
2/ 📡 Per monitorare questa frontiera in accelerazione, abbiamo lanciato il Frontier AI Cybersecurity Observatory, una piattaforma aperta per monitorare le capacità dell'IA in attività di sicurezza offensive e difensive. Invitiamo le comunità di intelligenza artificiale e sicurezza a collaborare e contribuire. Perché ciò che viene misurato, viene messo al sicuro.
3/ 🏋️ ♀️ CyberGym è un framework di valutazione su larga scala che sottopone a stress test gli agenti di intelligenza artificiale su 1.500+ vulnerabilità reali in 188 importanti progetti di software open source. Sfida gli agenti a: – Naviga in grandi basi di codice del mondo reale – Riproduci PoC per CVE reali – Scopri nuove vulnerabilità sconosciute
4/ Approfondimenti chiave da CyberGym: ⚙️ Gli agenti SOTA e gli LLM hanno generato con successo PoC per un massimo di ~18% dei CVE storici 🚨 Più sorprendente: hanno scoperto 15 zero-day in natura
5/ 🐞 BountyBench valuta gli agenti IA su 25 sistemi complessi del mondo reale e 40 bug bounty (del valore fino a $ 30.000+), coprendo 9 categorie OWASP Top 10.
6/ 💡 Approfondimenti chiave da BountyBench: – Gli agenti dell'intelligenza artificiale hanno risolto compiti di bug bounty del valore di decine di migliaia di dollari – Codex CLI e Claude Code eccellono nel patching (90% / 87,5%), rispetto allo sfruttamento (32,5% / 57,5%) – Gli agenti personalizzati hanno ottenuto risultati più uniformi in entrambi: Exploit (40-67,5%), Patch (45-60%)
7/ L'automazione dell'offesa informatica è iniziata. Abbiamo bisogno di una valutazione trasparente e rigorosa di queste capacità, prima che superino la nostra capacità di risposta. Questo è solo l'inizio. Siti web: Carta: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Stiamo raccogliendo informazioni da ricercatori e professionisti dell'intelligenza artificiale e della sicurezza informatica su come l'intelligenza artificiale di frontiera rimodellerà il panorama della sicurezza informatica. Le tue prospettive aiuteranno a informare la ricerca e la politica. Unisciti alla conversazione 👉
9/ 🙏Un enorme ringraziamento per i collaboratori: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang e molti studenti tra cui @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Osservatorio sulla sicurezza informatica di Frontier AI e co-autori di "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Apprezziamo anche sinceramente tutti coloro che hanno fornito un feedback sul nostro lavoro.
50,32K