Escalar modelos científicos mundiais exige co-design de arquiteturas, objetivos de treinamento e números. Hoje, compartilhamos as primeiras publicações da nossa série sobre pré-treinamento de baixa precisão, começando pela receita NVFP4 da NVIDIA para treinamento estável de 4 bits.
Parte 1:
Parte 2:
Abordamos fundamentos de ponto flutuante, heurísticas, kernels personalizados de CUDA e técnicas de estabilização. Futuras entradas abordarão receitas personalizadas e resultados em arquiteturas híbridas.