新しい@Scale_AI紙! 報酬ハッキングの背後にある犯人は?高報酬の尾の仕様ミスにたどります。 私たちの解決策は、「優れた」回答と「素晴らしい」回答を区別するためのルーブリックベースの報酬です。 その結果、ハッキングが減り、トレーニング後がより強力になります。