Mode-Kollaps im RL könnte von zentralisiertem Training kommen, das die Erkundung einschränkt. Während echte Vielfalt tendenziell natürlich in verteilten und Open-Source-AI-Systemen entsteht, wo Modelle semi-unabhängig evolvieren und gelegentlich synchronisiert werden. Shoutout an @samsja19 für das Teilen dieses Beitrags.