@LiquidAI_ LFM2-350M モデルを「コンピューティング最適」を超えて 1400 倍にトレーニングしました > チンチラのスケーリング法則: パラメータあたり ~20 トークン > LFM2-350M: パラメータあたり ~28,000 トークン (1400 倍) なぜでしょうか。 Chinchilla はコンピューティングのトレーニングのみに関係し、推論コストを気にするためです