Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parece que OpenAI ha estado usando YaRN de Nous y la escala de cuerda de kaiokendev para la extensión de la longitud del contexto todo el tiempo, por supuesto, nunca ningún crédito, pero ... Cualquiera que diga que "el código abierto simplemente roba de su investigación 'real' y se monta sobre sus hombros" está completamente equivocado
Lo llamé cuando lanzaron un contexto extendido de 128k en gpt4 solo unas semanas después de que Nous lanzara el hilo jajaja
para el contexto en el hilo; Deepseek y Qwen también lo usan;
Papel:

1 ago, 16:03
Eh It’s going to come out anyway now
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.29K
Populares
Ranking
Favoritas