“O treinamento baseado em saída manterá as cadeias de pensamento honestas.” Infelizmente, NÃO. Mostramos que treinar apenas com a *saída* ainda pode fazer com que os modelos escondam comportamentos indesejados em sua cadeia de pensamento. A equipe MATS 8.0 Shard apresenta: um 🧵