Escalar modelos científicos mundiais exige co-design de arquiteturas, objetivos de treinamento e números. Hoje, compartilhamos as primeiras publicações da nossa série sobre pré-treinamento de baixa precisão, começando pela receita NVFP4 da NVIDIA para treinamento estável de 4 bits. Parte 1: Parte 2: Abordamos fundamentos de ponto flutuante, heurísticas, kernels personalizados de CUDA e técnicas de estabilização. Futuras entradas abordarão receitas personalizadas e resultados em arquiteturas híbridas.