Penso che l'osservazione che i LLM siano "cattivi tutor" in quanto non possono sondare precisamente la comprensione sia accurata. Il fatto che "aumentare il peso dell'intero rollout" sia stupido è anche vero. Tuttavia, non mi è chiaro che il rimedio a questo sia la riflessione sui LLM riguardo a "cosa è andato bene". Penso che questo incontri problemi molto simili di rischio di collasso o di cattiva allocazione della supervisione. Perché mentre potremmo succhiare la supervisione attraverso una cannuccia, l'unica cosa che è ancora peggiore è succhiare supervisione contaminata attraverso una cannuccia.