Immagino di dover scrivere un spiegazione dettagliata sull'Engram di DeepSeek.
Metti mi piace a questo post se vuoi un spiegazione su
- come i gradienti fluiscono verso gli embeddings accessibili tramite funzioni hash
- o cosa si fondono in un singolo FP8 MMA
- o PERCHÉ DIAVOLO USANO LE CONVOLUZIONI NEL TRASFORMATORE
Quando RETRO è stato rilasciato, pensavo che il recupero fosse un grande affare per i LLM, per ridurre il numero di parametri aumentando la profondità della conoscenza per i modelli. È stata una sorpresa per me che le aziende evitassero quell'idea.
Whale porta il Recupero sul tavolo:
> In particolare, mentre si prevede che il modulo di memoria aiuti il recupero della conoscenza (ad es., MMLU +3.4; CMMLU +4.0), osserviamo guadagni ancora maggiori nel ragionamento generale (ad es., BBH +5.0; ARC-Challenge +3.7) e nei domini di codice/matematica (HumanEval +3.0; MATH +2.4). Le analisi meccanicistiche rivelano che Engram solleva i primi strati della spina dorsale dalla ricostruzione statica, approfondendo efficacemente la rete per un ragionamento complesso.