Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

:omer
Construindo @FloorsFinance. GP @3point0_vc. Ex-diretor @AvalancheFDN / @avax. Doutorado em ciência da computação @eth. NFA & DYOR.
Portanto, o custo estimado para alcançar um desempenho semelhante ao GPT-2 caiu ~100 vezes nos últimos ~7 anos.

Andrej Karpathy6 horas atrás
Novo post: minissérie nanochat v1
A forma correta de pensar sobre LLMs é que você não está otimizando para um único modelo específico, mas para uma família de modelos controlados por um único mostrador (o cálculo que você deseja gastar) para alcançar resultados monotonamente melhores. Isso permite que você faça ciência cuidadosa sobre leis de escala e, no fim das contas, é isso que te dá confiança de que, quando você paga pela "grande corrida", a extrapolação vai funcionar e seu dinheiro será bem gasto. Para a primeira versão pública do nanochat, meu foco foi em pipeline de ponta a ponta que executa todo o pipeline do LLM com todas as suas etapas. Agora, depois de fazer YOLO algumas vezes antes, estou voltando para desenvolver algumas das partes que passei rapidamente, começando, claro, com o pré-treinamento, que é tanto computacionalmente pesado quanto crítico como base de inteligência e conhecimento nesses modelos.
Depois de ajustar localmente alguns dos hiperparâmetros, eliminei vários modelos que ajustavam o orçamento dos FLOPs. (Para cada alvo de FLOPs, você pode treinar um modelo pequeno por muito tempo, ou um modelo grande por um curto período.) Acontece que o nanochat obedece a leis de escala muito rigorosas, basicamente reproduzindo os gráficos de papel da chinchila:
Que é só uma versão infantil desse enredo da Chinchilla:
Muito importante e encorajador, o expoente em N (parâmetros) e D (tokens) é igual a ~=0,5, então, assim como na Chinchilla, obtemos uma única constante (independente de computação) que relaciona o tamanho do modelo aos horizontes de treinamento de tokens. Na Chinchilla, esse número foi medido em 20. No nanochat parece ser 8!
Quando conseguimos treinar modelos computacionais ótimos, eu varrei uma minissérie de d10 para d20, que são tamanhos nanochat capazes de fazer 2**19 ~= 0,5M de tamanhos de lote em nó 8XH100 sem acúmulo de gradiente. Temos gráficos de treinamento bonitos, sem iteração, para cada tamanho de modelo.
A parte divertida é relacionar essa minissérie v1 com as minisséries GPT-2 e GPT-3, para que saibamos que estamos no caminho certo. A perda de validação tem muitos problemas e não é comparável, então uso a pontuação CORE (do artigo DCLM). Calculei para o GPT-2 e estimei para o GPT-3, o que nos permite finalmente colocar o nanochat de forma bem e na mesma escala:
O custo total desta minissérie é de apenas ~$100 (~4 horas em 8XH100). Esses experimentos nos dão confiança de que tudo está funcionando razoavelmente bem e que, se pagarmos mais (ajustarmos o mostrador), obteremos modelos cada vez melhores.
Resumo: podemos treinar minisséries computacionais ótimas e relacioná-las ao GPT-2/3 por meio de pontuações CORE objetivas, mas melhorias adicionais são desejáveis e necessárias. Por exemplo, combinar o GPT-2 atualmente exige ~$500, mas na minha opinião deveria ser possível fazer <$100 com mais trabalho.
O post completo com muito mais detalhes está aqui:
E todo o ajuste e código são levados para masterizar, e as pessoas podem reproduzir isso com scaling_laws .sh e minisséries .sh roteiros de bash.




26
Não posso enfatizar isso o suficiente: tokens garantidos por reserva são uma grande oportunidade. Você sabe qual é o pior valor de resgate possível enquanto o potencial de valorização permanece sem limite. Uma fusão do mercado primário com um mercado monetário interno, e a volatilidade começa a se transformar em um respaldo permanente.
Antes de levarmos a sério stablecoins + tokens de rede, vamos lançar um pequeno experimento "divertido" de fToken para testar e demonstrar toda a stack @FloorsFinance.
51
E será substituído por algo melhor em ~ mês.

Super Dario5 de jan., 03:37
O código Claude com Opus 4.5 é a ferramenta mais poderosa já criada, ponto final.
21
Melhores
Classificação
Favoritos
