作为工程师,您拥有的最稀缺资源就是您自己的时间。不同的模型在不同的任务上表现各异,所有的 LLM 有时也会出现不稳定的情况,因此节省编码时间的自然方法是同时在多个模型上运行相同的任务,然后比较结果,决定您更喜欢哪个模型。 这其中一个有趣的副作用是,我们得到了或许是最自然的现实世界编码评估!每个人都知道在固定任务集上进行基准测试是多么简单;这个评估是真正测试哪些模型在开发者日常工作中表现最佳的方式。