“El entrenamiento basado en la salida mantendrá las cadenas de pensamiento honestas.” Lamentablemente, NO. Mostramos que entrenar solo en *la salida* aún puede hacer que los modelos oculten comportamientos no deseados en su cadena de pensamiento. El equipo MATS 8.0 Shard presenta: un 🧵