Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200
> não posso dizer muito ainda
> as coisas estão em movimento
> o calendário está cheio
> grandes coisas estão a ser preparadas
> Compre uma GPU, Aprenda LLMs, Cimeira de IA Local
> hardware, software, ambos os lados
> conteúdo, vídeo, talvez uma cimeira
> a qualidade leva tempo
> não estou a forçar o ritmo
> mais em breve
p.s. posso fazer um AMA na sexta-feira

8,03K
projetos de Engenharia LLM passo a passo
each project = um conceito aprendido da maneira difícil (ou seja, real)
Tokenização & Embeddings
> construir um codificador de pares de bytes + treinar seu próprio vocabulário de subpalavras
> escrever um “visualizador de tokens” para mapear palavras/fragmentos para IDs
> one-hot vs learned-embedding: plotar distâncias cosseno
Embeddings Posicionais
> sinusoidal clássico vs aprendido vs RoPE vs ALiBi: demonstrar os quatro
> animar uma sequência de brinquedo sendo “codificada em posição” em 3D
> ablar posições—assistir a atenção colapsar
Auto-Atenção & Atenção Multihead
> conectar manualmente a atenção por produto escalar para um token
> escalar para multi-head, plotar mapas de calor de pesos por cabeça
> mascarar tokens futuros, verificar propriedade causal
transformers, QKV, & empilhamento
> empilhar as implementações de Atenção com LayerNorm e residuais → transformer de bloco único
> generalizar: “mini-former” de n-blocos em dados de brinquedo
> dissecar Q, K, V: trocá-los, quebrá-los, ver o que explode
Parâmetros de Amostragem: temp/top-k/top-p
> codificar um painel de amostragem — ajustar interativamente temp/k/p e amostrar saídas
> plotar entropia vs diversidade de saída enquanto ajusta os parâmetros
> aniquilar temp=0 (argmax): assistir à repetição
Cache KV (Inferência Rápida)
> gravar & reutilizar estados KV; medir aceleração vs sem cache
> construir um visualizador de “acerto/erro de cache” para fluxos de tokens
> perfilar custo de memória de cache para sequências longas vs curtas
Truques de Longo Contexto: Infini-Attention / Janela Deslizante
> implementar atenção de janela deslizante; medir perda em documentos longos
> comparar variantes “eficientes em memória” (recomputar, flash)
> plotar perplexidade vs comprimento do contexto; encontrar ponto de colapso do contexto
Mistura de Especialistas (MoE)
> codificar uma camada de roteador de 2 especialistas; rotear tokens dinamicamente
> plotar histogramas de utilização de especialistas sobre o conjunto de dados
> simular trocas esparsas/densas; medir economias de FLOP
Atenção de Consulta Agrupada
> converter seu mini-former para layout de consulta agrupada
> medir velocidade vs multi-head vanilla em grande lote
> ablar número de grupos, plotar latência
Normalização & Ativações
> implementar manualmente LayerNorm, RMSNorm, SwiGLU, GELU
> ablar cada um—o que acontece com a perda de treino/teste?
> plotar distribuições de ativação camada a camada
Objetivos de Pré-treinamento
> treinar LM mascarado vs LM causal vs LM de prefixo em texto de brinquedo
> plotar curvas de perda; comparar qual aprende “inglês” mais rápido
> gerar amostras de cada um — notar peculiaridades
Ajuste Fino vs Ajuste por Instrução vs RLHF
> ajustar fino em um pequeno conjunto de dados personalizado
> ajustar por instrução adicionando tarefas (“Resumir: ...”)
> RLHF: hackear um modelo de recompensa, usar PPO por 10 passos, plotar recompensa
Leis de Escalonamento & Capacidade do Modelo
> treinar modelos pequenos, médios, grandes — plotar perda vs tamanho
> comparar tempo de relógio, VRAM, throughput
> extrapolar curva de escalonamento — quão “burro” você pode ser?
Quantização
> codificar PTQ & QAT; exportar para GGUF/AWQ; plotar queda de precisão
Pilhas de Inferência/Ajuste:
> portar um modelo do HuggingFace para Deepspeed, vLLM, ExLlama
> perfilar throughput, VRAM, latência em todos os três
Dados Sintéticos
> gerar dados de brinquedo, adicionar ruído, deduplicar, criar divisões de avaliação
> visualizar curvas de aprendizado do modelo em real vs sintético
cada projeto = uma visão central. construir. plotar. quebrar. repetir.
> não fique preso muito tempo na teoria
> codifique, depure, ablate, até meme seus gráficos lol
> termine cada um e poste o que aprendeu
o seu eu futuro agradecerá mais tarde
37,52K
tópicos principais para aprender como funcionam os llms, tudo o que é necessário é < 2 anos se você tiver uma base em ciências da computação
> tokenização e embeddings
> embeddings posicionais (absolutos, rope, alibi)
> autoatenção e atenção multi-cabeça
> transformers
> qkv
> parâmetros de amostragem: temperatura, top-k top-p
> cache kv (e por que a inferência é rápida)
> atenção infinita & janela deslizante (truques de contexto longo)
> mistura de especialistas (camadas de roteamento moe)
> atenção de consulta agrupada
> normalização e ativações
> objetivos de pré-treinamento (causal, mascarado, etc)
> ajuste fino vs ajuste por instrução vs rlhf
> leis de escalonamento e curvas de capacidade do modelo
tópicos bônus:
> quantizações - qat vs ptq (ggufs, awq, etc)
> pilhas de treinamento vs inferência (deepspeed, vllm, etc)
> geração de dados sintéticos
5,52K
Top
Classificação
Favoritos