这篇论文很有趣,但我对总奖励公式有些困惑。对于像我这样的人,这里有一个注释版本,所有变量都在同一屏幕上,无需在页面之间来回翻阅(为什么人们不这样做?也许可以不使用颜色,但只需图例):