Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Похоже, что OpenAI все это время использовал YaRN от Nous и веревочное масштабирование kaiokendev для расширения длины контекста - конечно, никогда не было никакой похвалы, но... Любой, кто говорит, что «открытый исходный код просто крадет их «настоящие» исследования и ездит у них на плечах», совершенно неправ
Я назвал это, когда они выпустили расширенный контекст 128k на gpt4 всего через несколько недель после того, как Nous выпустил yarn lol
для контекста на пряже; Deepseek и Qwen также используют его;
Бумага:

1 авг., 16:03
Eh It’s going to come out anyway now
Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,29K
Топ
Рейтинг
Избранное