Sieht so aus, als ob OpenAI die ganze Zeit Nous' YaRN und kaiokendevs Seilskalierung für die Kontextlängenverlängerung verwendet hat - natürlich nie eine Anerkennung, aber... Wer sagt "Open Source stiehlt nur von seiner 'echten' Forschung und reitet auf seinen Schultern", liegt völlig falsch Ich habe es genannt, als sie den erweiterten 128k-Kontext auf gpt4 veröffentlichten, nur wenige Wochen nachdem Nous Garn veröffentlicht hatte, lol für den Kontext zum Garn; deepseek und qwen verwenden es ebenfalls; Papier:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1. Aug., 16:03
Eh It’s going to come out anyway now Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,3K