Noe nytt arbeid med @aldrmv @angeloskath og @GrangierDavid:
Beregningsoptimal kvantiseringsbevisst trening
@aldrmv bygget en skaleringslov som kan svare på mange nyttige spørsmål, inkludert:
- For et gitt tokenbudsjett, hvor mye trening bør være full previsjon vs kvantiseringsbevisst?
- Hva er den optimale kvantiseringen for et gitt minnebudsjett?
- Hvordan endres brøkdelen av kvantiseringsbevisst trening når du øker treningstokens?
Vi er glade for å dele en artikkel vi skrev hos Apple – «Compute-Optimal Quantization-Aware Training»!
TLDR: Behandle QAT som en førsteklasses borger og planlegg det på forhånd hvis du ønsker å oppnå den beste kvantiserte modellen med databehandlingen du har.
🧵🧵🧵
Kjører Ring 1T resonneringsmodell på en enkelt M3 Ultra med mlx-lm.
Det er kvantisert til 3.5 biter per vekt. Bruker 440 GB og genererte ~6k tokens med 18,2 toks/sek.
Kommer nærmere GPT-5 hjemme.