Creo que la observación de que los LLM son "malos tutores" en el sentido de que no pueden indagar con precisión la comprensión es precisa. El hecho de que "aumentar el peso de todo el despliegue" sea estúpido también es cierto. Sin embargo, no me parece obvio que el remedio para eso sea la reflexión de LLM sobre "qué salió bien". Creo que esto se enfrenta a problemas muy similares de riesgo de colapso o mala asignación de supervisión. Porque, aunque podríamos estar absorbiendo supervisión a través de una pajita, lo único que es aún peor es absorber supervisión contaminada a través de una pajita.