1/ 🔥 Los agentes de IA están alcanzando un momento decisivo en la ciberseguridad. En nuestro último trabajo: 🔓 CyberGym: los agentes de IA descubrieron 15 días cero en importantes proyectos de código abierto 💰 BountyBench: Los agentes de IA resolvieron tareas de recompensas por errores del mundo real por valor de decenas de miles de dólares 🤖 Autónomamente. Se está produciendo un cambio fundamental: los agentes de IA ahora pueden hacer de forma autónoma lo que antes solo podían hacer los hackers humanos de élite.
2/ 📡 Para rastrear esta frontera acelerada, hemos lanzado el Observatorio de Ciberseguridad de IA Frontier, una plataforma abierta para monitorear las capacidades de IA en tareas de seguridad ofensivas y defensivas. Invitamos a las comunidades de IA y seguridad a colaborar y contribuir. Porque lo que se mide, se asegura.
3/ 🏋️ ♀️ CyberGym es un marco de evaluación a gran escala que pone a prueba a los agentes de IA en 1.500+ vulnerabilidades reales en 188 importantes proyectos de software de código abierto. Desafía a los agentes a: – Navegar por grandes bases de código del mundo real – Reproducir PoCs para CVEs reales – Descubrir nuevas vulnerabilidades desconocidas
4/ Ideas clave de CyberGym: ⚙️ Los agentes SOTA y los LLM generaron con éxito PoC para hasta ~18% de los CVE históricos 🚨 Más sorprendente: descubrieron 15 días cero en la naturaleza
5/ 🐞 BountyBench evalúa a los agentes de IA en 25 sistemas complejos del mundo real y 40 recompensas por errores (por un valor de hasta $ 30,000 +), cubriendo 9 categorías de OWASP Top 10.
6/ 💡 Ideas clave de BountyBench: – Los agentes de IA resolvieron tareas de recompensas por errores por valor de decenas de miles de dólares – Codex CLI y Claude Code sobresalieron en parches (90% / 87,5%), frente a explotación (32,5% / 57,5%) – Los agentes personalizados tuvieron un rendimiento más uniforme en ambos: Exploit (40-67,5%), Patch (45-60%)
7/ La automatización de la ciberdelincuencia ha comenzado. Necesitamos una evaluación transparente y rigurosa de estas capacidades, antes de que superen nuestra capacidad de respuesta. Esto es solo el comienzo. Sitios web: Papel: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Estamos recopilando información de investigadores y profesionales de IA y ciberseguridad sobre cómo la IA de frontera remodelará el panorama de la ciberseguridad. Sus perspectivas ayudarán a informar la investigación y la política. Únete a la conversación 👉
9/ 🙏Muchísimas gracias a los colaboradores: Cibergimnasio: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang y muchos estudiantes, entre ellos @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory y coautores de "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct También agradecemos sinceramente a todos los que proporcionaron comentarios sobre nuestro trabajo.
50.23K