Ketika RETRO dirilis, saya pikir pengambilan adalah masalah besar bagi LLM, untuk mengurangi jumlah parameter sekaligus meningkatkan kedalaman pengetahuan untuk model. Mengejutkan bagi saya bahwa perusahaan menghindari ide itu.
Whale membawa Retrieval ke meja:
> Terutama, sementara modul memori diharapkan dapat membantu pengambilan pengetahuan (misalnya, MMLU +3.4; CMMLU +4,0), kami mengamati keuntungan yang lebih besar dalam penalaran umum (misalnya, BBH +5,0; ARC-Challenge +3.7) dan domain kode/matematika (HumanEval +3.0; MATEMATIKA +2.4). Analisis mekanistik mengungkapkan bahwa Engram membebaskan lapisan awal tulang punggung dari rekonstruksi statis, secara efektif memperdalam jaringan untuk penalaran yang kompleks.
Makalah itu menarik, tetapi saya sedikit berjuang dengan rumus hadiah total. Bagi siapa pun seperti saya, ini adalah versi beranotasi dengan semua variabel di layar yang sama, tanpa perlu bolak-balik di seluruh halaman (mengapa orang tidak melakukan ini? Mungkin tanpa warna, tapi hanya legenda):