.@RichardSSutton,强化学习的父亲,并不认为LLM是苦涩教训的产物。 我对Richard观点的钢铁人设:我们需要一些新的架构来实现持续(在职)学习。 如果我们有持续学习,我们就不需要一个特殊的训练阶段——代理可以随时学习——就像所有人类,实际上,也像所有动物一样。 这一新范式将使我们当前的LLM方法变得过时。 我尽力表达了LLM将作为这种体验学习发生的基础的观点。一些火花飞溅。 0:00:00 – LLM是死胡同吗? 0:13:51 – 人类进行模仿学习吗? 0:23:57 – 经验时代 0:34:25 – 当前架构在分布外的泛化能力差 0:42:17 – AI领域的惊喜 0:47:28 – 苦涩教训在AGI之后仍然适用吗? 0:54:35 – AI的继承
在YouTube、Apple Podcasts、Spotify等平台上搜索Dwarkesh Podcast,观看并订阅未来的剧集。
1.35M