Wir haben unser @LiquidAI_ LFM2-350M Modell 1400x über "compute optimal" trainiert > Chinchilla Skalierungsgesetze: ~20 Tokens pro Parameter > LFM2-350M: ~28.000 Tokens pro Parameter (1400x mehr) Warum? Weil Chinchilla nur die Trainingsberechnung betrifft, während uns die Kosten für die Inferenz wichtig sind.