この自己改善のループが最終的にうまくいかないと言っているわけではありませんが、私たちはまだ「脱出速度」に達していないと思います。 現在、LLM は十分に「正直」ではなく、特に崩壊に屈しないように最適化の圧力がかかる場合にはなおさらです。 それまでは、さまざまな創発的な機能、つまり事前トレーニングを確実に吹き込むもののサンプルサイズは正確に N=1 です。 人々は、トレーニング後のことを考える時間を減らし、実際にはトレーニング前のように見えるが、異なる約束を持つ可能性のあることについて考える時間を増やす必要があります。