Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Ahmad

Pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200

projetos de Engenharia LLM passo a passo each project = um conceito aprendido da maneira difícil (ou seja, real) Tokenização & Embeddings > construir um codificador de pares de bytes + treinar seu próprio vocabulário de subpalavras > escrever um “visualizador de tokens” para mapear palavras/fragmentos para IDs > one-hot vs learned-embedding: plotar distâncias cosseno Embeddings Posicionais > sinusoidal clássico vs aprendido vs RoPE vs ALiBi: demonstrar os quatro > animar uma sequência de brinquedo sendo “codificada em posição” em 3D > ablar posições—assistir a atenção colapsar Auto-Atenção & Atenção Multihead > conectar manualmente a atenção por produto escalar para um token > escalar para multi-head, plotar mapas de calor de pesos por cabeça > mascarar tokens futuros, verificar propriedade causal transformers, QKV, & empilhamento > empilhar as implementações de Atenção com LayerNorm e residuais → transformer de bloco único > generalizar: “mini-former” de n-blocos em dados de brinquedo > dissecar Q, K, V: trocá-los, quebrá-los, ver o que explode Parâmetros de Amostragem: temp/top-k/top-p > codificar um painel de amostragem — ajustar interativamente temp/k/p e amostrar saídas > plotar entropia vs diversidade de saída enquanto ajusta os parâmetros > aniquilar temp=0 (argmax): assistir à repetição Cache KV (Inferência Rápida) > gravar & reutilizar estados KV; medir aceleração vs sem cache > construir um visualizador de “acerto/erro de cache” para fluxos de tokens > perfilar custo de memória de cache para sequências longas vs curtas Truques de Longo Contexto: Infini-Attention / Janela Deslizante > implementar atenção de janela deslizante; medir perda em documentos longos > comparar variantes “eficientes em memória” (recomputar, flash) > plotar perplexidade vs comprimento do contexto; encontrar ponto de colapso do contexto Mistura de Especialistas (MoE) > codificar uma camada de roteador de 2 especialistas; rotear tokens dinamicamente > plotar histogramas de utilização de especialistas sobre o conjunto de dados > simular trocas esparsas/densas; medir economias de FLOP Atenção de Consulta Agrupada > converter seu mini-former para layout de consulta agrupada > medir velocidade vs multi-head vanilla em grande lote > ablar número de grupos, plotar latência Normalização & Ativações > implementar manualmente LayerNorm, RMSNorm, SwiGLU, GELU > ablar cada um—o que acontece com a perda de treino/teste? > plotar distribuições de ativação camada a camada Objetivos de Pré-treinamento > treinar LM mascarado vs LM causal vs LM de prefixo em texto de brinquedo > plotar curvas de perda; comparar qual aprende “inglês” mais rápido > gerar amostras de cada um — notar peculiaridades Ajuste Fino vs Ajuste por Instrução vs RLHF > ajustar fino em um pequeno conjunto de dados personalizado > ajustar por instrução adicionando tarefas (“Resumir: ...”) > RLHF: hackear um modelo de recompensa, usar PPO por 10 passos, plotar recompensa Leis de Escalonamento & Capacidade do Modelo > treinar modelos pequenos, médios, grandes — plotar perda vs tamanho > comparar tempo de relógio, VRAM, throughput > extrapolar curva de escalonamento — quão “burro” você pode ser? Quantização > codificar PTQ & QAT; exportar para GGUF/AWQ; plotar queda de precisão Pilhas de Inferência/Ajuste: > portar um modelo do HuggingFace para Deepspeed, vLLM, ExLlama > perfilar throughput, VRAM, latência em todos os três Dados Sintéticos > gerar dados de brinquedo, adicionar ruído, deduplicar, criar divisões de avaliação > visualizar curvas de aprendizado do modelo em real vs sintético cada projeto = uma visão central. construir. plotar. quebrar. repetir. > não fique preso muito tempo na teoria > codifique, depure, ablate, até meme seus gráficos lol > termine cada um e poste o que aprendeu o seu eu futuro agradecerá mais tarde

Top

Classificação

Favoritos