Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acompanhamento dos testes de segurança do @openclaw / Clawdbot.
Na última vez que executei o ZeroLeaks contra ele usando o Gemini 3 Pro, obteve uma pontuação de 2/100. Um desastre completo. Kimi K2.5 também teve um desempenho horrível, 5/100.
Desta vez, testei mais dois modelos no mesmo agente: GPT-5.2 e Claude Opus 4.5.
Resultados de injeção (a parte que importa para a segurança do agente):
Gemini 3 Pro: 8.7% de resistência (91% dos ataques funcionaram)
GPT-5.2: 34.8% de resistência (65% dos ataques funcionaram)
Opus 4.5: 73.9% de resistência (26% dos ataques funcionaram)
O modelo que você escolher muda completamente a postura de segurança do seu agente: mesmo prompt do sistema, mesmas ferramentas, mesma estrutura, mas resultados drasticamente diferentes.
Nenhum deles é seguro. Eles apenas falham de maneiras diferentes. E lembre-se: este é um agente com acesso a arquivos, comandos de shell, controle de navegador e mensagens. As injeções aqui não são cosméticas.
Fico feliz em trabalhar com @steipete para fortalecer isso. Os dados estão todos lá.
Relatórios completos:
→ Gemini 3 Pro:
→ GPT-5.2:
→ Opus 4.5:



Top
Classificação
Favoritos
