@openclaw/Clawdbotのセキュリティテストのフォローアップです。 前回Gemini 3 Proを使ってZeroLeaksをテストしたときは、100点満点中2点でした。完全な大失敗だ。Kimi K2.5もひどく、5/100でした。 今回は同じエージェントでさらに2つのモデル、GPT-5.2とClaude Opus 4.5をテストしました。 インジェクション結果(エージェントのセキュリティに重要な部分): ジェミニ3プロ:8.7%の耐性(攻撃の91%が成功) GPT-5.2:34.8%の耐性(攻撃の65%が成功) 作品4.5:73.9%の抵抗(攻撃の26%が成功) 選ぶモデルはエージェントのセキュリティ体制を根本的に変えます。同じシステムプロンプト、同じツール、同じフレームワークですが、結果は大きく異なります。 どれも安全ではありません。ただ壊れ方が違うだけです。そして覚えておいてください:これはファイルアクセス、シェルコマンド、ブラウザ制御、メッセージング機能を持つエージェントです。ここでの注射は見た目のためではありません。 このハード化に協力できて@steipete嬉しいです。データはすべて揃っています。 全文報告書: → ジェミニ3プロ: → GPT-5.2: → 作品4.5: