lo siento, pero sigo viendo publicaciones de esta naturaleza, así que necesito aclarar. Sabemos que los LMs son invertibles desde HACE DOS AÑOS. Lo demostré durante mi doctorado. el artículo citado añade algunas extensiones sofisticadas, pero "Inversión de Modelos de Lenguaje" (Morris et al., ICLR 2024) lo hizo primero :)
Alex Imas
Alex Imas29 oct, 10:59
Santo cielo. Este documento es una locura. Puedes recuperar el texto de entrada de un LLM a través de la inversión. Implicaciones enormes para cómo entendemos estos modelos, así como para cosas como la privacidad.
- puedes recuperar los prompts solo a partir de las salidas, dado el tiempo de muestreo suficiente - puedes recuperarlos más rápido buscando de manera binaria en la API si permite el parámetro 'logit bias' - hay una extensión interesante en (Finlayson et al., 2024): puedes recuperar la *última capa del modelo en sí*
Inversión del Modelo de Lenguaje
Los logits de los LLMs protegidos por API filtran información propietaria
374