Abbiamo addestrato il nostro modello LFM2-350M di @LiquidAI_ 1400 volte oltre il "compute optimal" > Leggi di scaling di Chinchilla: ~20 token per parametro > LFM2-350M: ~28.000 token per parametro (1400 volte di più) Perché? Perché Chinchilla si preoccupa solo del calcolo di addestramento, mentre noi ci preoccupiamo del costo di inferenza.