Завжди приємно бачити більше роботи, що розширює Diloco та зменшує вимоги до пропускної здатності для попередньої підготовки!
Amir Sarfi
Amir Sarfi22 серп. 2025 р.
Представляємо SparseLoCo: комунікативно-ефективний метод для попереднього навчання LLM. ТЛ; Д.Р.: Ми використовуємо розрідження Top-k + зворотний зв'язок по помилках з нечастими зовнішніми кроками DiLoCo - передача лише 1-3% градієнтів з 2-бітною квантуванням - перевершуючи DiLoCo і DeMo. 1/Н, ArXiv: На Github:
4,97K