Acho que a observação de que os LLMs são "maus tutores", pois não podem sondar com precisão a compreensão, é precisa. O fato de que "aumentar o peso de todo o lançamento" é estúpido também é verdade. No entanto, não é óbvio para mim que o remédio para isso seja a reflexão do LLM sobre "o que deu certo". Acho que isso esbarra em questões muito semelhantes de risco de colapso ou má alocação de supervisão. Porque, embora possamos estar sugando a supervisão por um canudo, a única coisa que é ainda pior é sugar a supervisão contaminada por um canudo.