Meskipun saya tidak mengatakan lingkaran perbaikan diri ini tidak dapat berhasil pada akhirnya, saya pikir kita belum mencapai "kecepatan melarikan diri". LLM saat ini tidak cukup "jujur", terutama ketika tekanan optimasi diterapkan agar tidak menyerah pada keruntuhan. Sampai saat itu, kami memiliki ukuran sampel N = 1 dari hal-hal yang dapat diandalkan mengilhami beragam kemampuan yang muncul: pra-pelatihan. Orang harus menghabiskan lebih sedikit waktu untuk memikirkan pasca-pelatihan dan menghabiskan lebih banyak waktu untuk memikirkan hal-hal yang secara efektif terlihat seperti pra-pelatihan tetapi dapat memiliki janji yang berbeda.