Acho que a observação de que os LLMs são "maus tutores" no sentido de que não conseguem sondar precisamente a compreensão é precisa. O fato de que "aumentar o peso de todo o rollout" é estúpido também é verdade. No entanto, não me parece óbvio que o remédio para isso seja a reflexão dos LLMs sobre "o que correu bem". Acho que isso enfrenta problemas muito semelhantes de risco de colapso ou má alocação de supervisão. Porque, enquanto podemos estar sugando supervisão através de um canudo, a única coisa que é ainda pior é sugar supervisão contaminada através de um canudo.