Embora eu não esteja a dizer que este ciclo de autoaperfeiçoamento não possa eventualmente funcionar, acho que ainda não atingimos a "velocidade de fuga". Os LLMs atualmente não são suficientemente "honestos", especialmente quando a pressão de otimização é aplicada para não sucumbir ao colapso. Até lá, temos exatamente um tamanho de amostra N=1 de coisas que imbuem de forma confiável um conjunto diversificado de capacidades emergentes: pré-treinamento. As pessoas deveriam passar menos tempo a pensar sobre o pós-treinamento e mais tempo a pensar em coisas que efetivamente se assemelham ao pré-treinamento, mas que poderiam ter promessas diferentes.