Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
a transição de vllm v0 para v1 fez com que nosso treinamento de rl assíncrono falhasse! leia como resolvemos isso
recentemente migramos de v0 para v1 como parte de uma refatoração maior do prime-rl para torná-lo mais fácil de usar, mais eficiente e naturalmente assíncrono. confirmamos a dinâmica de treinamento correta em muitas execuções de menor escala, mas encontramos um obstáculo ao tentar reproduzir uma execução de maior escala que funcionou sem problemas antes da refatoração. Especificamente, treinar o DeepSeek-R1-Distill-Qwen-1.5B em problemas matemáticos de turno único do nosso conjunto de dados de matemática INTELLECT-2 com contexto de 8k e atraso off-policy de dois passos falharia fatalmente cerca de 400 passos após o início do treinamento.

40,41K
Top
Classificação
Favoritos