Supongo que tendré que escribir una explicación larga sobre el Engram de DeepSeek.
Me gusta esta publicación si quieres una explicación de
- cómo fluyen los gradientes hacia las incrustaciones accedidas mediante funciones hash
- o lo que fusionan en un solo FP8 MMA
- o POR QUÉ DEMONIOS USAN CONVOLUCIONES EN EL TRANSFORMADOR
Cuando salió RETRO, pensé que la recuperación es algo importante para los LLMs, para reducir el número de param y aumentar la profundidad del conocimiento de los modelos. Me sorprendió que las empresas evitaran esa idea.
Whale aporta Retrieval a la mesa:
> Lo más notable es que, aunque se espera que el módulo de memoria ayude a la recuperación de conocimiento (por ejemplo, MMLU +3.4; CMMLU +4,0), observamos ganancias aún mayores en razonamiento general (por ejemplo, BBH +5,0; ARC-Challenge +3.7) y dominios de código/matemáticas (HumanEval +3.0; MATEMÁTICAS +2,4). Los análisis mecanicistas revelan que Engram alivia las primeras capas de la columna vertebral de la reconstrucción estática, profundizando efectivamente la red para razonamientos complejos.