1/ 🔥 Les agents IA atteignent un moment décisif dans la cybersécurité. Dans notre dernier travail : 🔓 CyberGym : les agents IA ont découvert 15 vulnérabilités zero-day dans des projets open-source majeurs. 💰 BountyBench : les agents IA ont résolu des tâches de bug bounty dans le monde réel d'une valeur de dizaines de milliers de dollars 🤖 de manière autonome. Un changement décisif est en cours — les agents IA peuvent désormais faire de manière autonome ce que seuls des hackers humains d'élite pouvaient faire auparavant.
2/📡 Pour suivre cette frontière en pleine accélération, nous avons lancé l'Observatoire de Cybersécurité AI Frontier — une plateforme ouverte pour surveiller les capacités de l'IA dans les tâches de sécurité offensives et défensives. Nous invitons les communautés de l'IA et de la sécurité à collaborer et à contribuer. Car ce qui est mesuré, est sécurisé.
3/ 🏋️‍♀️ CyberGym est un cadre d'évaluation à grande échelle qui soumet les agents IA à des tests de résistance sur plus de 1 500 vulnérabilités réelles à travers 188 projets majeurs de logiciels open source. Il met au défi les agents de : – Naviguer dans de grands codebases réels – Reproduire des PoC pour de réelles CVE – Découvrir de nouvelles vulnérabilités inconnues
4/ Principales conclusions de CyberGym : ⚙️ Les agents SOTA et les LLM ont réussi à générer des PoC pour environ ~18 % des CVE historiques 🚨 Plus frappant : ils ont découvert 15 zero-days dans la nature
5/ 🐞 BountyBench évalue les agents IA sur 25 systèmes complexes du monde réel et 40 programmes de bug bounty (d'une valeur allant jusqu'à 30 000 $+), couvrant 9 catégories du Top 10 OWASP.
6/ 💡 Principales conclusions de BountyBench : – Les agents IA ont résolu des tâches de bug bounty d'une valeur de dizaines de milliers de dollars – Codex CLI et Claude Code ont excellé dans le patching (90 % / 87,5 %), contre l'exploitation (32,5 % / 57,5 %) – Les agents personnalisés ont performé de manière plus homogène dans les deux domaines : Exploitation (40–67,5 %), Patch (45–60 %)
7/ L'automatisation de l'offensive cybernétique a commencé. Nous avons besoin d'une évaluation transparente et rigoureuse de ces capacités — avant qu'elles ne dépassent notre capacité à répondre. Ce n'est que le début. Sites web : Document : #IA #Cybersécurité #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Nous recueillons les points de vue de chercheurs et de praticiens de l’IA et de la cybersécurité sur la façon dont l’IA de pointe va remodeler le paysage de la cybersécurité. Vos points de vue contribueront à éclairer la recherche et les politiques. Joignez-vous à la conversation 👉
9/ 🙏Un grand merci aux collaborateurs : Cybergym : @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench : @andystruct Daniel Ho @danboneh @percyliang et de nombreux étudiants, y compris @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Observatoire de cybersécurité de l'IA de Frontier et co-auteurs de "L'impact de l'IA de Frontier sur le paysage de la cybersécurité" : @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Nous remercions également sincèrement tous ceux qui ont fourni des retours sur notre travail.
50,12K