热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/ 🔥 AI代理在网络安全领域正迎来突破时刻。
在我们最新的工作中:
🔓 CyberGym:AI代理在主要开源项目中发现了15个零日漏洞
💰 BountyBench:AI代理解决了价值数万美元的真实世界漏洞赏金任务
🤖 自主完成。
一个关键的转变正在进行中——AI代理现在可以自主完成以前只有精英人类黑客才能做到的事情。

2/📡 为了追踪这一加速发展的前沿,我们推出了前沿人工智能网络安全观察站——一个开放平台,用于监测人工智能在进攻和防御安全任务中的能力。
我们邀请人工智能和安全社区进行合作和贡献。
因为被测量的东西,才能被保护。

3/ 🏋️♀️ CyberGym 是一个大规模评估框架,针对 188 个主要开源软件项目中的 1,500 多个真实漏洞对 AI 代理进行压力测试。
它挑战代理:
– 导航大型真实代码库
– 复现真实 CVE 的 PoC
– 发现新的、未知的漏洞

4/ CyberGym 的关键见解:
⚙️ SOTA 代理和 LLM 成功生成了约 18% 的历史 CVE 的 PoC
🚨 更引人注目的是:他们在野外发现了 15 个零日漏洞

5/ 🐞 BountyBench 在 25 个真实世界的复杂系统和 40 个漏洞赏金(价值高达 30,000 美元以上)上评估 AI 代理,涵盖 9 个 OWASP 前 10 类别。

6/ 💡 BountyBench 的关键见解:
– AI 代理解决了价值数万美元的漏洞赏金任务
– Codex CLI 和 Claude Code 在修补方面表现出色(90% / 87.5%),而在利用方面表现较差(32.5% / 57.5%)
– 自定义代理在两者之间表现更均衡:利用(40–67.5%),修补(45–60%)

7/ 网络攻击的自动化已经开始。
我们需要对这些能力进行透明、严格的评估——在它们超出我们应对能力之前。
这仅仅是个开始。
网站:
论文:
#人工智能 #网络安全 #漏洞赏金 #大型语言模型 #赏金基准 #网络训练场
8/ 📋 我们正在收集人工智能和网络安全研究人员和从业者的见解,了解前沿人工智能将如何重塑网络安全格局。
您的观点将有助于为研究和政策提供信息。
加入对话 👉
9/ 🙏非常感谢合作伙伴:
Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04
Bountybench: @andystruct Daniel Ho @danboneh @percyliang 以及许多学生,包括
@JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29。
Frontier AI网络安全观察站及《Frontier AI对网络安全格局的影响》的合著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct
我们也衷心感谢所有对我们的工作提供反馈的人。
50.12K
热门
排行
收藏