熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
看起來 OpenAI 一直在使用 Nous 的 YaRN 和 kaiokendev 的繩索縮放來擴展上下文長度 - 當然從來沒有任何功勞,但是......任何說「開源只是從他們的『真實』研究中竊取並騎在他們的肩膀上」的人都是完全錯誤的
當他們在 Nous 發布紗線幾週後在 gpt4 上發布擴展的 128k 上下文時,我稱之為它,哈哈
有關紗線的背景;Deepseek 和 Qwen 也使用它;
紙:

8月1日 16:03
Eh It’s going to come out anyway now
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113.29K
熱門
排行
收藏