RL におけるモードの崩壊は、探索を制限する集中トレーニングから生じる可能性があります 一方、真の多様性は、モデルが半独立して進化し、時には同期する分散型およびオープンソースの AI で自然に現れる傾向があります この記事を共有してくれた@samsja19に感謝します