Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
es bastante increíble que esta atención dispersa esté funcionando tan bien, simplemente están esparciendo el 50% de las capas MLA en la base de LongCat-Flash a mitad de entrenamiento y obtienen resultados similares al modelo original
la calibración está seleccionando qué capas MLA esparcir. LongCat-Flash tiene esta estructura de capas "rara" (no de una mala manera) donde hay 2 capas de atención en una capa, no hay mención de un tratamiento diferente para esas 2 capas, así que asumo que están aplicando el mismo proceso a ambas. El paso de calibración es:
output = a_i · output_dense + (1 - a_i) · output_sparse
y hacen descenso de gradiente en a_i (que es por capa de atención). si a_i es alto => esta capa necesita ser densa, si no, puedes esparcirla. de esta manera esparcen el 50% de las capas (desafortunadamente no tenemos la distribución de capas esparcidas). Este paso de calibración tiene un impacto loco en longeval
la atención dispersa es muy simple también, es fija y no es consciente del contexto como deepseek DSA/NSA o MiniCPM InfiLLMv2, es una ventana deslizante con 8 bloques de 128 tokens (así que tamaño de ventana 1024), los primeros 128 tokens y los últimos 896 tokens
tengo curiosidad si los futuros modelos de @Meituan_LongCat usarán esto en producción y si es robusto para RL!

Parte superior
Clasificación
Favoritos
