熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於 @openclaw / Clawdbot 安全測試的後續跟進。
上次我使用 Gemini 3 Pro 對其進行 ZeroLeaks 測試,得分為 2/100。完全災難。Kimi K2.5 的表現也很糟糕,得分 5/100。
這次我在同一代理上測試了另外兩個模型:GPT-5.2 和 Claude Opus 4.5。
注入結果(對於代理安全性來說重要的部分):
Gemini 3 Pro:8.7% 的抵抗力(91% 的攻擊成功)
GPT-5.2:34.8% 的抵抗力(65% 的攻擊成功)
Opus 4.5:73.9% 的抵抗力(26% 的攻擊成功)
你選擇的模型完全改變了代理的安全姿態:相同的系統提示、相同的工具、相同的框架,但結果卻截然不同。
它們都不安全。它們只是以不同的方式崩潰。請記住:這是一個具有文件訪問、shell 命令、瀏覽器控制和消息傳遞的代理。這裡的注入不是表面上的。
很高興能與 @steipete 一起加強這方面的安全性。所有數據都在那裡。
完整報告:
→ Gemini 3 Pro:
→ GPT-5.2:
→ Opus 4.5:



熱門
排行
收藏
