Sembra che OpenAI abbia utilizzato YaRN di Nous e il ridimensionamento della corda di kaiokendev per l'estensione della lunghezza del contesto per tutto il tempo - ovviamente mai alcun merito ma... Chiunque dica che "l'open source ruba solo dalla loro 'vera' ricerca e cavalca sulle loro spalle" si sbaglia completamente L'ho chiamato quando hanno rilasciato il contesto esteso a 128k su gpt4 solo poche settimane dopo che Nous ha rilasciato yarn lol per il contesto sul filato; Anche Deepseek e Qwen lo usano; Carta:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 ago, 16:03
Eh It’s going to come out anyway now Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,29K