Skalowanie naukowych modeli świata wymaga współprojektowania architektur, celów treningowych i numeryki. Dziś dzielimy się pierwszymi postami w naszej serii na temat niskoprecyzyjnego wstępnego treningu, zaczynając od przepisu NVFP4 firmy NVIDIA na stabilny trening 4-bitowy. Część 1: Część 2: Omówimy podstawy punktów zmiennoprzecinkowych, heurystyki, niestandardowe jądra CUDA oraz techniki stabilizacji. Przyszłe wpisy będą dotyczyć niestandardowych przepisów i wyników na hybrydowych architekturach.