Масштабування наукових моделей світу вимагає спільного проектування архітектур, навчальних цілей і чисельної техніки. Сьогодні ми ділимося першими публікаціями нашої серії про низькоточне попереднє навчання, починаючи з рецепту NVFP4 від NVIDIA для стабільного 4-бітного навчання. Частина 1: Частина 2: Ми висвітлюємо основи з плаваючою комою, евристики, кастомні ядра CUDA та техніки стабілізації. Майбутні записи охоплюватимуть власні рецепти та результати гібридних архітектур.