刚刚阅读了Yann LeCun和Randall Balestriero的新LeJEPA论文。我一直很好奇Yann最近在做什么,尤其是考虑到他对LLM的所有批评(我不同意,因为我认为LLM会不断改进,并很快带我们进入ASI)。 无论如何,关于这篇论文及其介绍的内容,X上已经有几个讨论线程。简而言之,这是一种原则性、理论上有依据且简约的自监督学习方法,取代了复杂的临时、粗糙的启发式方法来防止模式崩溃,而模式崩溃是自监督学习的祸根。 这就是模型出错的地方,开始将所有输入映射到几乎相同的嵌入或嵌入的狭窄子空间,将问题的所有丰富性压缩成一种病态简单且错误的对应关系。 新方法的第一支柱是他们证明了各向同性高斯分布在最坏情况下独特地最小化下游预测风险。 我一读到这个,就立刻想到了CMA-ES,这是在你无法访问你试图最小化的函数的梯度时,最佳的黑箱优化算法,但只能进行(昂贵/缓慢的)函数评估。 Nikolaus Hansen自1996年引入CMA-ES以来一直在研究它。我一直对这种方法感到着迷,并在2011年成功地使用它高效地探索深度神经网络的超参数,而不是进行低效的网格搜索。 无论如何,我提到这个的原因是因为这种方法与LeJEPA的核心之间存在显著的相似性和深刻的联系。 CMA-ES说:从各向同性高斯开始,因为它是在仅有方差约束的情况下最大熵(最少偏见)分布。然后调整协方差以学习问题的几何形状。 LeJEPA说:保持各向同性高斯,因为它是未知未来任务的最大熵(最少偏见)分布。 两者都认识到,在不确定性下,各向同性是最优的,原因有三: 最大熵原理;在所有具有固定方差的分布中,各向同性高斯具有最大熵;即,它做出最少的假设。 没有方向偏见;所有方向的方差相等意味着你没有预先承诺任何特定的问题结构。 你获得最坏情况下的最优性;在所有可能的问题几何形状中最小化最大遗憾。 那么,区别是什么呢?这归结为适应时机。CMA-ES可以在优化过程中适应;它开始是各向同性的,但随着学习特定的优化景观而变得各向异性。 相比之下,LeJEPA必须保持各向同性,因为它正在为尚未见过的未知下游任务做准备。 ...