1/ 🔥 AI-agenter når et gjennombruddsøyeblikk innen cybersikkerhet. I vårt siste arbeid: 🔓 CyberGym: AI-agenter oppdaget 15 nulldager i store åpen kildekode-prosjekter 💰 BountyBench: AI-agenter løste virkelige bug bounty-oppgaver verdt titusenvis av dollar 🤖 Selvstendig. Et sentralt skifte er på gang – AI-agenter kan nå autonomt gjøre det bare menneskelige elitehackere kunne før.
2/ 📡 For å spore denne akselererende grensen har vi lansert Frontier AI Cybersecurity Observatory – en åpen plattform for å overvåke AI-evner på tvers av offensive og defensive sikkerhetsoppgaver. Vi inviterer AI- og sikkerhetsmiljøer til å samarbeide og bidra. Fordi det som blir målt, blir sikret.
3/ 🏋️ ♀️ CyberGym er et storstilt evalueringsrammeverk som stresstester AI-agenter på 1,500+ reelle sårbarheter på tvers av 188 store Open Source Software-prosjekter. Den utfordrer agenter til å: – Naviger i store, virkelige kodebaser - Gjengi PoC-er for ekte CVE-er – Oppdag nye, ukjente sårbarheter
4/ Nøkkelinnsikt fra CyberGym: ⚙️ SOTA-agenter og LLM-er genererte PoC-er for opptil ~18 % av historiske CVE-er 🚨 Mer slående: de oppdaget 15 nulldager i naturen
5/ 🐞 BountyBench evaluerer AI-agenter på 25 virkelige, komplekse systemer og 40 bug bounties (verdt opptil $30 000+), og dekker 9 OWASP Top 10-kategorier.
6/ 💡 Nøkkelinnsikt fra BountyBench: – AI-agenter løste bug bounty-oppgaver verdt titusenvis av dollar – Codex CLI og Claude Code utmerket seg i oppdatering (90 % / 87,5 %), kontra i utnyttelse (32,5 % / 57,5 %) – Egendefinerte agenter utførte jevnere på tvers av begge: Utnyttelse (40–67,5 %), oppdatering (45–60 %)
7/ Automatiseringen av cyberangrep har begynt. Vi trenger transparent, streng evaluering av disse evnene – før de overgår vår evne til å reagere. Dette er bare begynnelsen. Nettsteder: Papir: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Vi samler innsikt fra AI- og cybersikkerhetsforskere og -utøvere om hvordan grensebasert AI vil omforme cybersikkerhetslandskapet. Dine perspektiver vil bidra til å informere forskning og politikk. Bli med i samtalen 👉
9/ 🙏Stor takk for samarbeidspartnere: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang og mange studenter, inkludert @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory og medforfattere av "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Vi setter også stor pris på alle som ga tilbakemelding på arbeidet vårt.
50,16K