Chúng tôi đã huấn luyện mô hình LFM2-350M của @LiquidAI_ gấp 1400 lần so với "tối ưu tính toán"
> Quy luật mở rộng Chinchilla: ~20 token cho mỗi tham số
> LFM2-350M: ~28.000 token cho mỗi tham số (gấp 1400 lần)
Tại sao?
Bởi vì Chinchilla chỉ quan tâm đến tính toán huấn luyện, trong khi chúng tôi quan tâm đến chi phí suy diễn.