o colapso de modo em rl pode vir de um treinamento centralizado que limita a exploração enquanto a verdadeira diversidade tende a emergir naturalmente em ai distribuído e de código aberto, onde os modelos evoluem semi-independentemente e ocasionalmente sincronizam agradecimentos a @samsja19 por compartilhar este artigo