Parece que OpenAI ha estado usando YaRN de Nous y la escala de cuerda de kaiokendev para la extensión de la longitud del contexto todo el tiempo, por supuesto, nunca ningún crédito, pero ... Cualquiera que diga que "el código abierto simplemente roba de su investigación 'real' y se monta sobre sus hombros" está completamente equivocado Lo llamé cuando lanzaron un contexto extendido de 128k en gpt4 solo unas semanas después de que Nous lanzara el hilo jajaja para el contexto en el hilo; Deepseek y Qwen también lo usan; Papel:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 ago, 16:03
Eh It’s going to come out anyway now Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.29K