a transição de vllm v0 para v1 fez com que nosso treinamento de rl assíncrono falhasse! leia como resolvemos isso recentemente migramos de v0 para v1 como parte de uma refatoração maior do prime-rl para torná-lo mais fácil de usar, mais eficiente e naturalmente assíncrono. confirmamos a dinâmica de treinamento correta em muitas execuções de menor escala, mas encontramos um obstáculo ao tentar reproduzir uma execução de maior escala que funcionou sem problemas antes da refatoração. Especificamente, treinar o DeepSeek-R1-Distill-Qwen-1.5B em problemas matemáticos de turno único do nosso conjunto de dados de matemática INTELLECT-2 com contexto de 8k e atraso off-policy de dois passos falharia fatalmente cerca de 400 passos após o início do treinamento.
40,41K