Escalar modelos de mundo científico requer co-design de arquiteturas, objetivos de treinamento e numéricos. Hoje, compartilhamos os primeiros posts da nossa série sobre pré-treinamento de baixa precisão, começando com a receita NVFP4 da NVIDIA para treinamento estável de 4 bits. Parte 1: Parte 2: Cobrimos fundamentos de ponto flutuante, heurísticas, kernels CUDA personalizados e técnicas de estabilização. Entradas futuras cobrirão receitas personalizadas e resultados em arquiteturas híbridas.