有没有什么不错的模型,它们的 token/s 真的很高,而且在能力上只落后于当前的 SOTA 模型 6-12 个月? 我在想,如果我能在本地运行并获得非常快速的反馈,我可以接受智能上的损失,这样与代理的互动就更像是 vim 快捷键,而不是对话。