“Đào tạo dựa trên đầu ra sẽ giữ cho chuỗi suy nghĩ trung thực.” Thật không may, KHÔNG. Chúng tôi cho thấy rằng việc đào tạo chỉ trên *đầu ra* vẫn có thể khiến các mô hình che giấu hành vi không mong muốn trong chuỗi suy nghĩ của chúng. Nhóm MATS 8.0 Shard trình bày: một 🧵