热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
看起来 OpenAI 一直在使用 Nous 的 YaRN 和 kaiokendev 的绳索缩放来扩展上下文长度 - 当然从来没有任何功劳,但是......任何说“开源只是从他们的'真实'研究中窃取并骑在他们的肩膀上”的人都是完全错误的
就在 Nous 发布纱线几周后,当他们在 gpt4 上发布扩展的 128k 上下文时,我称之为它,哈哈
关于纱线的背景;deepseek 和 qwen 也使用它;
纸:

8月1日 16:03
Eh It’s going to come out anyway now
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.3K
热门
排行
收藏