热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Noam Brown
研究推理 @OpenAI |共同创建了 Libratus/Pluribus 超人扑克 AI、CICERO Diplomacy AI 和 OpenAI o3 / o1 / 🍓 推理模型
以下是对自我对弈为何在像围棋/扑克/星际争霸这样的两人零和(2p0s)游戏中有效,但在“现实世界”领域中使用起来却困难得多的深入分析。简而言之:自我对弈在2p0s游戏中收敛到极小极大值,而极小极大值在这些游戏中非常有用。
每个有限的2p0s游戏都有一个极小极大值均衡,这本质上是在期望上不可战胜的策略(假设玩家轮流选择)。例如,在石头剪子布中,极小极大值是每个动作的1/3。
极小极大值是我们想要的吗?不一定。如果你在石头剪子布中使用极小极大值,而大多数对手的策略是“总是出石头”,那么你显然是次优的,即使在期望上你没有输。这在像扑克这样的游戏中尤其重要,因为使用极小极大值意味着你可能无法从弱玩家那里赚到尽可能多的钱。
但“你在期望上不会输”的保证是非常好的。在像国际象棋和围棋这样的游戏中,极小极大值策略与最优利用对手群体的策略之间的差异微不足道。因此,极小极大值通常被认为是两人零和游戏的目标。即使在扑克中,顶级职业玩家的传统智慧也是玩极小极大值(博弈论最优),然后只有在发现对手明显弱点时才偏离。
即使从零开始,合理的自我对弈也保证在有限的2p0s游戏中收敛到极小极大值均衡。这太棒了!通过简单地扩展内存和计算能力,并且没有人类数据,我们可以收敛到一个在期望上不可战胜的策略。
那么非2p0s游戏呢?可悲的是,纯自我对弈,没有人类数据,不再保证收敛到有用的策略。这在最后通牒游戏中可以清楚地看到。爱丽丝必须给鲍勃提供$0-100。然后鲍勃接受或拒绝。如果鲍勃接受,钱将根据爱丽丝的提议进行分配。如果鲍勃拒绝,两人都将得到$0。
均衡(具体来说,子博弈完美均衡)策略是提供1美分并让鲍勃接受。但在现实世界中,人们并不是那么理性。如果爱丽丝试图用这种策略与真实的人类互动,她最终会得到很少的钱。自我对弈与我们人类认为有用的东西脱节。
很多人提出了像“一个LLM老师提出困难的数学问题,而一个学生LLM尝试解决它们”这样的游戏来实现自我对弈训练,但这与最后通牒游戏遇到类似的问题,即均衡与我们人类认为有用的东西脱节。
在这样的游戏中,老师的奖励应该是什么?如果是2p0s,那么如果学生无法解决问题,老师就会获得奖励,因此老师会提出不可能的问题。好吧,如果我们奖励学生有50%的成功率呢?那么老师可以随便掷硬币,问学生是否是正面。或者老师可以要求学生通过穷举密钥搜索来解密一条消息。为了实现预期行为而进行的奖励塑造成为一个重大挑战。这在2p0s游戏中不是问题。
我确实相信自我对弈。它提供了无限的训练来源,并且不断将代理与同等技能的对手匹配。我们也看到它在一些复杂的非2p0s环境中有效,如外交和汉诺塔。但在2p0s游戏之外应用它比在围棋、扑克、Dota和星际争霸中要困难得多。


Noam Brown2025年10月21日
自我对弈在国际象棋、围棋和扑克中效果很好,因为这些游戏是双人零和游戏。这简化了很多问题。现实世界更复杂,这就是为什么我们在大型语言模型(LLMs)中还没有看到自我对弈的许多成功。
顺便说一下,@karpathy 表现得很好,我大部分时间都同意他的观点!
277.41K
自我对弈在国际象棋、围棋和扑克中效果很好,因为这些游戏是双人零和游戏。这简化了很多问题。现实世界更复杂,这就是为什么我们在大型语言模型(LLMs)中还没有看到自我对弈的许多成功。
顺便说一下,@karpathy 表现得很好,我大部分时间都同意他的观点!

Dwarkesh Patel2025年10月21日
.@karpathy 说 LLM 目前缺乏推动人类走出草原的文化积累和自我游戏:
文化:> “为什么 LLM 不能为其他 LLM 写一本书?为什么其他 LLM 不能阅读这个 LLM 的书并受到启发,或者感到震惊?”
自我游戏:> “这非常强大。进化有很多竞争推动智能和进化。AlphaGo 是在与自己对弈,这就是它学习如何在围棋上变得非常出色的方式。LLM 中没有自我游戏的等价物。为什么 LLM 不能,例如,创建一堆问题让另一个 LLM 学习解决?这样 LLM 就总是在尝试提供越来越难的问题。”
我问 Karpathy 为什么 LLM 仍然无法像人类一样建立文化。
> “更笨的模型惊人地像一个幼儿园学生。[最聪明的模型仍然感觉像] 小学生。不过,我们似乎仍然没有毕业到足以让[这些模型]接管的程度。我的 Claude Code 或 Codex,它们仍然感觉像这个小学年级的学生。我知道它们可以参加博士生测验,但它们在认知上仍然感觉像幼儿园。”
> “我认为它们无法创造文化,因为它们仍然是孩子。它们是天才儿童。它们有完美的记忆。它们可以令人信服地创造出各种看起来非常好的垃圾。但我仍然认为它们并不真正知道自己在做什么。它们在所有这些小复选框中并没有真正具备我们仍需收集的认知。”
320.87K
斯坦福大学的课程质量很高,但政策显然过时了。我听说在期中考试期间,学生们直接将问题输入到 ChatGPT 中,出现了猖獗的明显作弊现象,但教授们由于荣誉守则不被允许监考。
教授们想要改变这一政策,但大学的官僚体系必须经过多年的流程才能进行更改。

Zara Zhang2025年10月14日
哈佛和斯坦福的学生告诉我,他们的教授不理解AI,课程也过时了。
如果顶尖学校都跟不上,文凭的竞争就结束了。自学是现在唯一的出路。
214.15K
热门
排行
收藏
