一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Jeffrey Emanuel

我觉得我对Cursor的新Composer-1编码LLM过于轻视了。确实，它在某种意义上比GPT-5高效版和GPT-5-Codex差得多，因此在我架构和实施重要代码项目时，我并不认为它在我的工作流程中有位置。另一方面，它的速度极快（不知道他们是怎么做到的；他们是在使用Groq或Cerebras硬件吗？还是因为模型非常小且高效？不太确定），仅此一点就为当代码不是那么关键，或者当你开始一个新项目而不必担心破坏现有代码时，解锁了许多新的工作流程和工作技巧。与任何版本的GPT-5相比，它的成本也便宜得多。速度更快和成本更低的结合在使用模型的方式上创造了一些质的差异，这是我之前没有完全意识到的。当迭代的成本在时间和金钱上都如此低时，你可以进行更多的迭代。这降低了“一次性正确”的价值；也就是说，像GPT-5 Pro这样的模型能够在没有错误的情况下第一次就完成复杂编码任务的能力（尽管即使是那个模型在这个非常严格的测试中也常常失败）。但是如果你能关闭调试循环，并快速将错误/警告反馈到模型中，每次迭代的时间只需20秒到一分钟（而使用GPT-5高效版至少需要5到10倍的时间），那么你可以迅速解决它第一次（甚至第二、第三或第四次）所犯的所有粗心错误，并且仍然能比使用GPT-5更快地完成工作代码。如果你在浏览器中开发某些东西，你现在可以真正通过Cursor的新浏览器标签关闭整个循环，这是我在任何编码工具中见过的最好的这种实现（远远超过使用Codex或Claude Code的Playwright MCP！）。我今天一直在使用这个提示，效果很好： “使用浏览器标签系统地探索这个应用程序，并以自然的方式使用界面；在此期间，注意开发控制台中的任何警告或错误。当你看到一个时，开始互动并迭代地诊断和修复错误和问题，然后刷新应用程序，验证错误或警告是否完全解决。在修复问题时，专注于确定错误的真正根本原因，而不是应用虚假的“创可贴”修复！” 然而，这种方法在概念和规划阶段确实会出现问题，在那里你要弄清楚要制作什么以及以高层次的最佳方式实施它。在那里，缺乏深思熟虑和探索可能会让你走上一个难以恢复的错误道路。当你正在处理的任务远离常见编码任务的“数据流形”时，这一点更加明显。如果你正在制作另一个简单的CRUD网站，那么你可能不会太注意。如果你试图在人工生命模拟或类似的奇怪事物中开辟新天地，你会注意到这一点。但有一种很好的混合方法效果很好：将最聪明的模型用于规划，与这些快速且便宜的模型结合，用于快速迭代。因此，在浏览器应用中使用GPT-5 Pro来制定你的计划和初步实现，然后将其粘贴到Cursor中，开始迭代、修复和改进。它在修改现有强大基础方面要比建立该基础本身要好得多。这一切真正闪耀的地方是，当你在一个没有截止日期或期望的新项目中玩耍和探索时。在这种情况下，速度是一个真正的游戏改变者。这让我想起了IBM在80年代早期进行的那项研究，研究了计算机系统的延迟，发现当延迟低于某个神奇水平，比如50毫秒时，你会看到行为发生重大变化，因为人类大脑感知到它正在处理一个“实时系统”。相反，当延迟超过甚至是一个令人惊讶的适度水平，比如500毫秒时，你会得到更少的参与感，这在心理上是有压力和令人沮丧的。当延迟飙升到几秒钟或更长时间时，人们往往会在心理上放弃，保持参与变得困难。看到编码模型在几秒钟内做出反应，并在不到15秒内进行10次编辑，完全是与等待5分钟让GPT-5高效版有条不紊地处理某些事情的体验截然不同。无论如何，玩这个东西真是太有趣了。对我来说，它比任何视频游戏都要有趣和吸引人。

刚刚阅读了Yann LeCun和Randall Balestriero的新LeJEPA论文。我一直很好奇Yann最近在做什么，尤其是考虑到他对LLM的所有批评（我不同意，因为我认为LLM会不断改进，并很快带我们进入ASI）。无论如何，关于这篇论文及其介绍的内容，X上已经有几个讨论线程。简而言之，这是一种原则性、理论上有依据且简约的自监督学习方法，取代了复杂的临时、粗糙的启发式方法来防止模式崩溃，而模式崩溃是自监督学习的祸根。这就是模型出错的地方，开始将所有输入映射到几乎相同的嵌入或嵌入的狭窄子空间，将问题的所有丰富性压缩成一种病态简单且错误的对应关系。新方法的第一支柱是他们证明了各向同性高斯分布在最坏情况下独特地最小化下游预测风险。我一读到这个，就立刻想到了CMA-ES，这是在你无法访问你试图最小化的函数的梯度时，最佳的黑箱优化算法，但只能进行（昂贵/缓慢的）函数评估。 Nikolaus Hansen自1996年引入CMA-ES以来一直在研究它。我一直对这种方法感到着迷，并在2011年成功地使用它高效地探索深度神经网络的超参数，而不是进行低效的网格搜索。无论如何，我提到这个的原因是因为这种方法与LeJEPA的核心之间存在显著的相似性和深刻的联系。 CMA-ES说：从各向同性高斯开始，因为它是在仅有方差约束的情况下最大熵（最少偏见）分布。然后调整协方差以学习问题的几何形状。 LeJEPA说：保持各向同性高斯，因为它是未知未来任务的最大熵（最少偏见）分布。两者都认识到，在不确定性下，各向同性是最优的，原因有三：最大熵原理；在所有具有固定方差的分布中，各向同性高斯具有最大熵；即，它做出最少的假设。没有方向偏见；所有方向的方差相等意味着你没有预先承诺任何特定的问题结构。你获得最坏情况下的最优性；在所有可能的问题几何形状中最小化最大遗憾。那么，区别是什么呢？这归结为适应时机。CMA-ES可以在优化过程中适应；它开始是各向同性的，但随着学习特定的优化景观而变得各向异性。相比之下，LeJEPA必须保持各向同性，因为它正在为尚未见过的未知下游任务做准备。这种相似性表明LeJEPA正在将优化理论中的基本原理应用于表示学习。它本质上是在说： “黑箱优化的最佳搜索分布也是迁移学习的最佳嵌入分布。” 这很有道理，因为这两个问题都涉及在未知的景观中导航；对于CMA-ES来说，这是未知的优化景观；对于LeJEPA来说，这是未知的下游任务空间。这个区别让我想知道：我们能否有“自适应LeJEPA”，它开始是各向同性的，但在我们知道下游任务后调整其嵌入分布，类似于CMA-ES在优化过程中适应的方式？这就像是为特定任务家族进行元学习的正确各向异性。无论如何，我想分享一下我的想法。看到这些不同领域之间的联系真是令人着迷。黑箱优化社区一直与深度学习社区相对独立，几乎没有交叉传播。这很有道理，因为如果你有梯度，你不使用它就太疯狂了。但确实存在强烈的联系。