热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jeffrey Emanuel
刚刚阅读了Yann LeCun和Randall Balestriero的新LeJEPA论文。我一直很好奇Yann最近在做什么,尤其是考虑到他对LLM的所有批评(我不同意,因为我认为LLM会不断改进,并很快带我们进入ASI)。
无论如何,关于这篇论文及其介绍的内容,X上已经有几个讨论线程。简而言之,这是一种原则性、理论上有依据且简约的自监督学习方法,取代了复杂的临时、粗糙的启发式方法来防止模式崩溃,而模式崩溃是自监督学习的祸根。
这就是模型出错的地方,开始将所有输入映射到几乎相同的嵌入或嵌入的狭窄子空间,将问题的所有丰富性压缩成一种病态简单且错误的对应关系。
新方法的第一支柱是他们证明了各向同性高斯分布在最坏情况下独特地最小化下游预测风险。
我一读到这个,就立刻想到了CMA-ES,这是在你无法访问你试图最小化的函数的梯度时,最佳的黑箱优化算法,但只能进行(昂贵/缓慢的)函数评估。
Nikolaus Hansen自1996年引入CMA-ES以来一直在研究它。我一直对这种方法感到着迷,并在2011年成功地使用它高效地探索深度神经网络的超参数,而不是进行低效的网格搜索。
无论如何,我提到这个的原因是因为这种方法与LeJEPA的核心之间存在显著的相似性和深刻的联系。
CMA-ES说:从各向同性高斯开始,因为它是在仅有方差约束的情况下最大熵(最少偏见)分布。然后调整协方差以学习问题的几何形状。
LeJEPA说:保持各向同性高斯,因为它是未知未来任务的最大熵(最少偏见)分布。
两者都认识到,在不确定性下,各向同性是最优的,原因有三:
最大熵原理;在所有具有固定方差的分布中,各向同性高斯具有最大熵;即,它做出最少的假设。
没有方向偏见;所有方向的方差相等意味着你没有预先承诺任何特定的问题结构。
你获得最坏情况下的最优性;在所有可能的问题几何形状中最小化最大遗憾。
那么,区别是什么呢?这归结为适应时机。CMA-ES可以在优化过程中适应;它开始是各向同性的,但随着学习特定的优化景观而变得各向异性。
相比之下,LeJEPA必须保持各向同性,因为它正在为尚未见过的未知下游任务做准备。
这种相似性表明LeJEPA正在将优化理论中的基本原理应用于表示学习。它本质上是在说:
“黑箱优化的最佳搜索分布也是迁移学习的最佳嵌入分布。”
这很有道理,因为这两个问题都涉及在未知的景观中导航;对于CMA-ES来说,这是未知的优化景观;对于LeJEPA来说,这是未知的下游任务空间。
这个区别让我想知道:我们能否有“自适应LeJEPA”,它开始是各向同性的,但在我们知道下游任务后调整其嵌入分布,类似于CMA-ES在优化过程中适应的方式?这就像是为特定任务家族进行元学习的正确各向异性。
无论如何,我想分享一下我的想法。看到这些不同领域之间的联系真是令人着迷。黑箱优化社区一直与深度学习社区相对独立,几乎没有交叉传播。
这很有道理,因为如果你有梯度,你不使用它就太疯狂了。但确实存在强烈的联系。

53.24K
你可以通过使用codex和GPT-5,完成大约95%的工作,创建一个真正漂亮、流畅、原生用Swift编写的iOS应用。但当你想把它放到App Store时,就需要设置签名的证书和其他所有这些东西。
在那时,你就无法再通过命令行程序化地完成所有操作,而需要开始在Xcode的GUI中进行操作,这简直是一场噩梦。
UI模式糟糕透顶,你需要猜测每个东西在哪里。即使AI一步一步地告诉你该做什么,在这个混乱而糟糕的界面中找到东西也是一种巨大的认知负担。
苹果真的应该暂停所有其他开发工具的工作,直到他们有一个完全完整、文档齐全(在一个markdown文件中!)的CLI和API,可以被AI编码代理用于创建和发布应用的所有相关工作。

10.97K
热门
排行
收藏


