有沒有什麼不錯的模型,其 token/s 速度真的很高,且在能力上僅落後於當前的 SOTA 模型 6-12 個月? 我在想,如果我能在本地運行並獲得非常快速的反饋,這樣與代理的互動就更像是 vim 快捷鍵,而不是對話,我可以接受這種智力上的損失。