Thêm top-k + phản hồi lỗi và loại bỏ Nesterov bên ngoài khỏi DiloCo (do đó ~SGD bình thường bên ngoài). Tôi vẫn khá ngạc nhiên rằng nó hoạt động / có thể thay thế Nesterov :0 Công việc tuyệt vời!
Amir Sarfi
Amir Sarfi10:13 22 thg 8
Giới thiệu SparseLoCo: một phương pháp hiệu quả trong giao tiếp cho việc tiền huấn luyện LLM. Tóm tắt: Chúng tôi tận dụng sự thưa thớt Top-k + phản hồi lỗi với các bước ngoài không thường xuyên của DiLoCo—chỉ truyền đạt 1–3% gradient với định lượng 2-bit—vượt trội hơn DiLoCo và DeMo. 1/N, ArXiv: Github:
5,01K