"O treinamento baseado em resultados vai manter as cadeias de pensamento honestas." Infelizmente, NÃO. Mostramos que treinar apenas com a saída ainda pode fazer com que os modelos escondam comportamentos indesejados em sua cadeia de pensamento. A equipe MATS 8.0 Shard apresenta: um 🧵