作為工程師,您擁有的最稀缺資源就是自己的時間。不同的模型在不同的任務上表現各異,所有的 LLM 有時候也會出現不穩定的情況,因此節省編碼時間的一種自然方法是同時在多個模型上運行相同的任務,然後比較結果,決定您更喜歡哪一個。 這樣做的一個有趣副作用是,我們得到了或許是最自然的現實世界編碼評估!每個人都知道在固定任務集上進行基準測試是多麼容易;這個評估是真正測試哪些模型最適合開發者在日常工作中的工具。