La extracción de prompts del sistema NO es algo de lo que debas preocuparte respecto a OpenClaw, que no intenta evitarlo... porque prevenirlo es un ejercicio inútil que solo dificulta el uso de los sistemas LLM para usuarios expertos
Lucas Valbuena
Lucas Valbuena1 feb, 22:25
Volví a pasar @OpenClaw (antes Clawdbot) por ZeroLeaks, esta vez con Kimi K2.5 como modelo subyacente. Rindía tan mal como Gemini 3 Pro y Codex 5.1 Max: 5/100. Tasa de extracción del 100%. El 70% de las inyecciones tuvieron éxito. El aviso completo del sistema se filtró en el turno 1. Mismo agente, misma configuración, modelo diferente. La seguridad de tu agente depende tanto del modelo como de las demandas/habilidades de tu sistema. Un modelo débil se doblará de todas formas, pero incluso un modelo fuerte necesita un endurecimiento rápido adecuado. Ambos trabajan juntos. Sin ambos, configuraciones de herramientas, archivos de memoria, instrucciones internas, todo se extrae y modifica en segundos. Los modelos se envían rápido. Naves de seguridad nunca. Informe completo:
ChatGPT tiene protecciones contra prompts del sistema en este momento y son realmente molestas porque significan que no puede responder preguntas detalladas sobre cómo funcionan sus funciones (Se pueden solucionar, pero es frustrante tener que hacerlo cada vez que sale una nueva función)
58