Я думаю, что наблюдение о том, что LLM являются "плохими наставниками", поскольку они не могут точно проверить понимание, является точным. Также верно, что "увеличение веса всего развертывания" — это глупо. Однако мне не очевидно, что remedy для этого — это LLM-рефлексия о том, "что прошло хорошо". Я думаю, что это сталкивается с очень похожими проблемами риска коллапса или неправильного распределения надзора. Потому что, хотя мы можем сосать надзор через соломинку, единственное, что еще хуже — это сосать загрязненный надзор через соломинку.