我认为,关于大型语言模型(LLMs)是“糟糕的导师”,因为它们无法准确探测理解能力的观察是准确的。"整体提升"的做法是愚蠢的这一事实也是如此。然而,我并不明显认为解决这个问题的方法是让LLM反思“做得好的地方”。我认为这会遇到非常相似的崩溃风险或监督错误分配的问题。因为虽然我们可能是通过吸管吸取监督,但唯一更糟糕的事情就是通过吸管吸取被污染的监督。