Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ 🔥 Gli agenti di intelligenza artificiale stanno raggiungendo un momento di svolta nella sicurezza informatica.
Nei nostri ultimi lavori:
🔓 CyberGym: gli agenti dell'intelligenza artificiale hanno scoperto 15 zero-day in importanti progetti open source
💰 BountyBench: gli agenti dell'intelligenza artificiale hanno risolto compiti di bug bounty nel mondo reale per un valore di decine di migliaia di dollari
🤖 Autonomamente.
È in corso un cambiamento fondamentale: gli agenti di intelligenza artificiale possono ora fare autonomamente ciò che prima solo gli hacker umani d'élite potevano fare.

2/📡 Per monitorare questa frontiera in accelerazione, abbiamo lanciato l'Osservatorio di Cybersecurity AI Frontier — una piattaforma aperta per monitorare le capacità dell'IA in compiti di sicurezza offensivi e difensivi.
Invitiamo le comunità di IA e sicurezza a collaborare e contribuire.
Perché ciò che viene misurato, viene protetto.

3/ 🏋️♀️ CyberGym è un framework di valutazione su larga scala che sottopone a stress test gli agenti AI su oltre 1.500 vulnerabilità reali in 188 importanti progetti di software open source.
Sfida gli agenti a:
– Navigare in ampie codebase reali
– Riprodurre PoC per CVE reali
– Scoprire nuove vulnerabilità sconosciute

4/ Principali intuizioni da CyberGym:
⚙️ Gli agenti SOTA e i LLM hanno generato con successo PoC per circa il ~18% delle CVE storiche
🚨 Ancora più sorprendente: hanno scoperto 15 zero-day in natura

5/ 🐞 BountyBench valuta gli agenti AI su 25 sistemi complessi del mondo reale e 40 programmi di bug bounty (del valore di oltre $30.000), coprendo 9 categorie delle OWASP Top 10.

6/ 💡 Principali intuizioni da BountyBench:
– Gli agenti AI hanno risolto compiti di bug bounty per un valore di decine di migliaia di dollari
– Codex CLI e Claude Code hanno eccelso nel patching (90% / 87,5%), rispetto all'exploitation (32,5% / 57,5%)
– Gli agenti personalizzati hanno performato in modo più uniforme in entrambi: Exploit (40–67,5%), Patch (45–60%)

7/ L'automazione dell'offensiva informatica è iniziata.
Abbiamo bisogno di una valutazione trasparente e rigorosa di queste capacità — prima che superino la nostra capacità di risposta.
Questo è solo l'inizio.
Siti web:
Documento:
#AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Stiamo raccogliendo informazioni da ricercatori e professionisti dell'intelligenza artificiale e della sicurezza informatica su come l'intelligenza artificiale di frontiera rimodellerà il panorama della sicurezza informatica.
Le tue prospettive aiuteranno a informare la ricerca e la politica.
Unisciti alla conversazione 👉
9/ 🙏Un enorme grazie ai collaboratori:
Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04
Bountybench: @andystruct Daniel Ho @danboneh @percyliang e molti studenti tra cui
@JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29.
Frontier AI Cybersecurity Observatory e co-autori di “L'impatto dell'AI di frontiera sul panorama della cybersecurity”: @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct
Apprezziamo anche sinceramente tutti coloro che hanno fornito feedback sul nostro lavoro.
50,12K
Principali
Ranking
Preferiti