Aunque no digo que este ciclo de auto-mejora no pueda funcionar eventualmente, creo que aún no hemos alcanzado la "velocidad de escape". Los LLMs actualmente no son suficientemente "honestos", especialmente cuando se aplica presión de optimización para no sucumbir al colapso. Hasta entonces, tenemos exactamente un tamaño de muestra N=1 de cosas que imbuyen de manera confiable un conjunto diverso de capacidades emergentes: el pre-entrenamiento. La gente debería pasar menos tiempo pensando en el post-entrenamiento y dedicar más tiempo a cosas que efectivamente se parecen al pre-entrenamiento pero que podrían tener promesas diferentes.