一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

当RETRO发布时，我认为检索对于LLMs来说是一个大问题，可以减少参数数量，同时增加模型的知识深度。令我惊讶的是，许多公司避免了这个想法。 Whale将检索带到了桌面： > 最显著的是，虽然内存模块预计将有助于知识检索（例如，MMLU +3.4；CMMLU +4.0），但我们观察到在一般推理（例如，BBH +5.0；ARC-Challenge +3.7）和代码/数学领域（HumanEval +3.0；MATH +2.4）中甚至有更大的提升。机制分析表明，Engram减轻了主干早期层的静态重建，有效地加深了网络以进行复杂推理。