"El entrenamiento basado en resultados mantendrá las cadenas de pensamiento honestas." Por desgracia, NO. Mostramos que entrenar *solo con la salida* puede hacer que los modelos oculten comportamientos no deseados en su cadena de pensamiento. El equipo MATS 8.0 Shard presenta: una 🧵