Entrenamos nuestro modelo LFM2-350M @LiquidAI_ 1400 veces más allá del "cálculo óptimo" > Leyes de escala de Chinchilla: ~20 tokens por parámetro > LFM2-350M: ~28,000 tokens por parámetro (1400 veces más) ¿Por qué? Porque Chinchilla solo se refiere al entrenamiento de cómputo, mientras que a nosotros nos importa el costo de inferencia