Embora eu não esteja dizendo que esse ciclo de auto-aperfeiçoamento não possa funcionar eventualmente, acho que ainda não atingimos a "velocidade de escape". Os LLMs atualmente não são suficientemente "honestos", especialmente quando a pressão de otimização é aplicada para não sucumbir ao colapso. Até então, temos exatamente um tamanho de amostra N = 1 de coisas que imbuem de forma confiável um conjunto diversificado de capacidades emergentes: pré-treinamento. As pessoas devem gastar menos tempo pensando no pós-treinamento e mais tempo pensando em coisas que efetivamente se parecem com o pré-treinamento, mas podem ter promessas diferentes.