新的 @Scale_AI 論文! 獎勵駭客的罪魁禍首是什麼?我們追溯到高獎勵尾部的錯誤規範。 我們的解決方案:基於標準的獎勵來區分「優秀」的回應和「出色」的回應。 結果:減少駭客行為,增強後訓練效果!