Extração de prompts do sistema NÃO é algo com que você deva se preocupar em relação ao OpenClaw, que não faz nenhuma tentativa de impedir isso... porque preveni-lo é um exercício inútil que só torna os sistemas LLM mais difíceis para usuários especialistas
Lucas Valbuena
Lucas Valbuena1 de fev., 22:25
Passei @OpenClaw (antigo Clawdbot) pelo ZeroLeaks novamente, desta vez com o Kimi K2.5 como modelo base. Teve desempenho tão ruim quanto o Gemini 3 Pro e o Codex 5.1 Max: 5/100. Taxa de extração 100%. 70% das injeções tiveram sucesso. O prompt completo do sistema vazou na curva 1. Mesmo agente, mesma configuração, modelo diferente. A segurança do seu agente depende tanto do modelo quanto do seu prompt/habilidades do sistema. Um modelo fraco vai ceder de qualquer jeito, mas mesmo um modelo forte precisa de um fortalecimento rápido. Os dois trabalham juntos. Sem ambos, configurações de ferramentas, arquivos de memória, instruções internas, tudo é extraído e modificado em segundos. Modelos são lançados rápido. Naves de segurança nunca. Relatório completo:
O ChatGPT tem proteções contra prompts do sistema no momento e elas são realmente irritantes porque significam que ele não pode responder perguntas detalhadas sobre como seus recursos funcionam (Eles podem ser contornados, mas é frustrante ter que fazer isso sempre que um novo recurso aparece)
59