トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@openclaw/Clawdbotのセキュリティテストのフォローアップです。
前回Gemini 3 Proを使ってZeroLeaksをテストしたときは、100点満点中2点でした。完全な大失敗だ。Kimi K2.5もひどく、5/100でした。
今回は同じエージェントでさらに2つのモデル、GPT-5.2とClaude Opus 4.5をテストしました。
インジェクション結果(エージェントのセキュリティに重要な部分):
ジェミニ3プロ:8.7%の耐性(攻撃の91%が成功)
GPT-5.2:34.8%の耐性(攻撃の65%が成功)
作品4.5:73.9%の抵抗(攻撃の26%が成功)
選ぶモデルはエージェントのセキュリティ体制を根本的に変えます。同じシステムプロンプト、同じツール、同じフレームワークですが、結果は大きく異なります。
どれも安全ではありません。ただ壊れ方が違うだけです。そして覚えておいてください:これはファイルアクセス、シェルコマンド、ブラウザ制御、メッセージング機能を持つエージェントです。ここでの注射は見た目のためではありません。
このハード化に協力できて@steipete嬉しいです。データはすべて揃っています。
全文報告書:
→ ジェミニ3プロ:
→ GPT-5.2:
→ 作品4.5:



トップ
ランキング
お気に入り
