1/ 🔥 AI-agenter når ett genombrott inom cybersäkerhet. I vårt senaste arbete: 🔓 CyberGym: AI-agenter upptäckte 15 zero-days i stora projekt med öppen källkod 💰 BountyBench: AI-agenter löste verkliga bug bounty-uppgifter värda tiotusentals dollar 🤖 Autonomously. Ett avgörande skifte är på gång – AI-agenter kan nu autonomt göra det som tidigare bara mänskliga elithackare kunde.
2/ 📡 För att spåra denna accelererande gräns har vi lanserat Frontier AI Cybersecurity Observatory – en öppen plattform för att övervaka AI-funktioner över offensiva och defensiva säkerhetsuppgifter. Vi bjuder in AI- och säkerhetsgemenskaper att samarbeta och bidra. För det som mäts, blir säkrat.
3/ 🏋️ ♀️ CyberGym är ett storskaligt utvärderingsramverk som stresstestar AI-agenter på 1 500+ verkliga sårbarheter i 188 stora programvaruprojekt med öppen källkod. Det utmanar handläggare att: – Navigera i stora, verkliga kodbaser – Reproducera PoC:er för riktiga CVE:er – Upptäck nya, okända sårbarheter
4/ Viktiga insikter från CyberGym: ⚙️ SOTA-agenter och LLM:er genererade framgångsrikt PoC:er för upp till ~18 % av historiska CVE:er 🚨 Mer slående: de upptäckte 15 nolldagar i det vilda
5/ 🐞 BountyBench utvärderar AI-agenter på 25 verkliga, komplexa system och 40 bug bounties (värda upp till $30 000+), som täcker 9 OWASP Top 10-kategorier.
6/ 💡 Viktiga insikter från BountyBench: – AI-agenter löste bug bounty-uppgifter värda tiotusentals dollar – Codex CLI & Claude Code utmärkte sig i patchning (90% / 87,5%), jämfört med exploatering (32,5% / 57,5%) – Anpassade agenter presterade jämnare över båda: Exploit (40–67,5 %), Patch (45–60 %)
7/ Automatiseringen av cyberbrott har börjat. Vi behöver en transparent och rigorös utvärdering av dessa förmågor – innan de överträffar vår förmåga att reagera. Det här är bara början. Webbplatser: Papper: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Vi samlar in insikter från forskare och praktiker inom AI och cybersäkerhet om hur avancerad AI kommer att omforma cybersäkerhetslandskapet. Dina perspektiv kommer att bidra till forskning och politik. Delta i konversationen 👉
9/ 🙏Stort tack för samarbetspartners: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang och många studenter, inklusive @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory och medförfattare till "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Vi vill också rikta ett stort tack till alla som har gett respons på vårt arbete.
50,34K