當RETRO發布時,我認為檢索對於LLMs來說是一個重要的問題,可以在減少參數數量的同時增加模型的知識深度。令我驚訝的是,許多公司避開了這個想法。 Whale將檢索帶到了桌面上: > 最值得注意的是,儘管記憶模塊預期能幫助知識檢索(例如,MMLU +3.4;CMMLU +4.0),但我們觀察到在一般推理(例如,BBH +5.0;ARC-Challenge +3.7)和代碼/數學領域(HumanEval +3.0;MATH +2.4)中甚至有更大的增益。機械分析顯示,Engram使骨幹的早期層免於靜態重建,有效地加深了網絡以進行複雜推理。