Některé nové práce s @aldrmv @angeloskath a @GrangierDavid: Výpočetně optimální školení s ohledem na kvantizaci @aldrmv vytvořil zákon škálování, který může odpovědět na mnoho užitečných otázek, včetně: - Kolik školení by mělo být pro daný rozpočet tokenů plné předvídání vs. kvantizace? - Jaká je pro daný rozpočet na paměť optimální kvantizace? - Jak se mění podíl tréninku s vědomím kvantizace, když zvyšujete počet tréninkových tokenů?