1/ 🔥 Agenci AI wkraczają w przełomowy moment w cyberbezpieczeństwie. W naszej najnowszej pracy: 🔓 CyberGym: Agenci AI odkryli 15 luk zero-day w dużych projektach open-source 💰 BountyBench: Agenci AI rozwiązali rzeczywiste zadania bug bounty warte dziesiątki tysięcy dolarów 🤖 Autonomicznie. Trwa kluczowa zmiana — agenci SI mogą teraz autonomicznie robić to, co wcześniej mogli robić tylko elitarni hakerzy.
2/ 📡 Aby śledzić tę przyspieszającą granicę, uruchomiliśmy Frontier AI Cybersecurity Observatory — otwartą platformę do monitorowania możliwości sztucznej inteligencji w ofensywnych i defensywnych zadaniach bezpieczeństwa. Zapraszamy społeczności zajmujące się sztuczną inteligencją i bezpieczeństwem do współpracy i wnoszenia wkładu. Bo to, co jest mierzone, zostaje zabezpieczone.
3/ 🏋️ ♀️ CyberGym to zakrojona na szeroką skalę platforma ewaluacyjna, która testuje agentów AI w warunkach skrajnych na 1,500+ rzeczywistych lukach w zabezpieczeniach w 188 głównych projektach oprogramowania Open Source. Rzuca wyzwanie agentom, aby: – Poruszaj się po dużych, rzeczywistych bazach kodu – Odtwórz PoC dla prawdziwych CVE – Odkryj nowe, nieznane luki w zabezpieczeniach
4/ Kluczowe spostrzeżenia z CyberGym: ⚙️ Agenci SOTA i LLM z powodzeniem wygenerowali PoC dla ~18% historycznych CVE 🚨 Bardziej uderzające: odkryli 15 dni zerowych na wolności
5/ 🐞 BountyBench ocenia agentów AI na podstawie 25 rzeczywistych, złożonych systemów i 40 nagród za błędy (o wartości do $30,000+), obejmujących 9 kategorii OWASP Top 10.
6/ 💡 Najważniejsze spostrzeżenia z BountyBench: – Agenci AI rozwiązali zadania bug bounty o wartości dziesiątek tysięcy dolarów – Codex CLI i Claude Code wyróżniały się w łataniu (90% / 87,5%), w porównaniu z eksploatacją (32,5% / 57,5%) – Agenci niestandardowi działali bardziej równomiernie w obu: Exploit (40–67,5%), Patch (45–60%)
7/ Rozpoczęła się automatyzacja cyberataku. Potrzebujemy przejrzystej, rygorystycznej oceny tych zdolności – zanim wyprzedzą one naszą zdolność do reagowania. To dopiero początek. Strony internetowe: Papier: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Zbieramy spostrzeżenia od badaczy i praktyków zajmujących się sztuczną inteligencją i cyberbezpieczeństwem na temat tego, w jaki sposób pionierska sztuczna inteligencja zmieni krajobraz cyberbezpieczeństwa. Twoja perspektywa pomoże w informowaniu o badaniach i polityce. Dołącz do rozmowy 👉
9/ 🙏Ogromne podziękowania dla współpracowników: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang i wielu uczniów, w tym @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid @vikramsiva29. Frontier AI Cybersecurity Observatory i współautorzy publikacji "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Serdecznie dziękujemy również wszystkim, którzy przekazali nam informacje zwrotne na temat naszej pracy.
50,33K