热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/ 🔥 AI智能体正处于网络安全的突破时刻。
在我们的最新工作中:
🔓 CyberGym:AI 智能体在重大开源项目中发现 15 个零日漏洞
💰 BountyBench:AI智能体解决现实世界价值数万美元的漏洞赏金任务
🤖 自主。
一个关键的转变正在发生——人工智能代理现在可以自主地完成以前只有精英人类黑客才能做到的事情。

2/ 📡 为了跟踪这一加速的前沿,我们推出了前沿人工智能网络安全观察站——一个开放平台,用于监控跨进攻和防御安全任务的人工智能能力。
我们邀请人工智能和安全社区进行合作和贡献。
因为被衡量的东西就会得到保障。

3/ 🏋️ ♀️ CyberGym 是一个大规模的评估框架,它对 1,500 个主要开源软件项目中的 188+ 个真实漏洞对 AI 代理进行压力测试。
它要求代理:
– 浏览大型真实世界的代码库
– 为真实 CVE 重现 PoC
– 发现新的未知漏洞

4/ CyberGym 的主要见解:
⚙️ SOTA 代理和 LLM 成功生成了高达 ~18% 的历史 CVE 的 PoC
🚨 更引人注目:他们在野外发现了 15 个零日漏洞

5/ 🐞 BountyBench 在 25 个真实世界的复杂系统和 40 个错误赏金(价值高达 $30,000+)上评估 AI 代理,涵盖 9 个 OWASP 前 10 个类别。

6/ 💡 BountyBench 的主要见解:
– AI 代理解决了价值数万美元的漏洞赏金任务
– Codex CLI 和 Claude Code 在修补 (90% / 87.5%) 方面表现出色,而在利用 (32.5% / 57.5%) 方面表现出色
– 自定义代理在以下两个方面表现更均匀:漏洞利用 (40–67.5%)、补丁 (45–60%)

7/ 网络攻击的自动化已经开始。
我们需要对这些能力进行透明、严格的评估——以免它们超过我们的应对能力。
这仅仅是开始。
网站:
纸:
#AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 我们正在收集人工智能和网络安全研究人员和从业者的见解,了解前沿人工智能将如何重塑网络安全格局。
您的观点将有助于为研究和政策提供信息。
加入对话 👉
9/ 🙏非常感谢合作者:
网络健身房:@zhun_amg、@tiannengshi、@jingxuan_he、@Nightxade_@benzhang04
Bountybench:@andystruct Daniel Ho @danboneh @percyliang和许多学生,包括
@JoeyJi0927、@cel_menders、@DulepetRiya、@ThomasQin52342、@ronyifengwang、@laurawjr、@kyleenliao、@jAlinaHu、@enscry、@NishkaK253710、@_Eth007、@laurenmclane_、@oliviabruvik、@SeKim1112、@RyanLi0802、@SparklySid、@vikramsiva29。
前沿人工智能网络安全观察站和《前沿人工智能对网络安全格局的影响》的合著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct
我们也衷心感谢所有对我们的工作提供反馈的人。
50.32K
热门
排行
收藏