Lo siento, pero sigo viendo publicaciones de esta naturaleza, así que necesito aclarar. sabemos que los LM son invertibles desde hace DOS AÑOS. Mostré esto durante mi doctorado. El artículo citado agrega algunas extensiones sofisticadas, pero "Language Model Inversion" (Morris et al., ICLR 2024) lo hizo primero :)
Alex Imas
Alex Imas29 oct, 10:59
Santo cielo. Este documento es una locura. Puede recuperar el texto de entrada de un LLM a través de la inversión. Enormes implicaciones para la forma en que entendemos estos modelos, así como para cosas como la privacidad.
- Puede recuperar indicaciones solo de salidas, con suficiente tiempo de muestreo - puede recuperarlos más rápido buscando binariamente en la API si permite el parámetro 'logit bias' - hay una extensión genial en (Finlayson et al., 2024): puedes recuperar la *última capa del modelo en sí*
Inversión del modelo de lenguaje
Los logits de LLM protegidos por API filtran información patentada
357