Jag antar att jag måste skriva en lång förklaring om DeepSeeks Engram.
Gilla det här inlägget om du vill ha en förklaring av
- hur gradienter flödar till de inbäddningar som nås via hashfunktioner
- eller vad de fusionerar till en enda FP8 MMA
- eller VARFÖR FACK ANVÄNDER DE KONVOLUTIONER I TRANSFORMATORN
När RETRO släpptes trodde jag att hämtning är en stor grej för LLM:er, för att minska param-antalet samtidigt som kunskapsdjupet för modeller ökar. Det var en överraskning för mig att företag undvek den idén.
Whale tar med sig Retrieval till bordet:
> Mest anmärkningsvärt är att även om minnesmodulen förväntas underlätta kunskapsåtervinning (t.ex. MMLU +3.4; CMMLU +4,0), ser vi ännu större vinster i allmänt resonemang (t.ex. BBH +5,0; ARC-Challenge +3.7) samt kod-/matematikdomäner (HumanEval +3.0; MATEMATIK +2,4). Mekanistiska analyser visar att Engram befriar ryggradens tidiga lager från statisk rekonstruktion, vilket effektivt fördjupar nätverket för komplext resonemang.