Найдефіцитніший ресурс, який ти маєш як інженер — це твій власний час. Різні моделі різко зростають при різних завданнях, і всі LLM іноді можуть бути нестабільними, тому природний спосіб заощадити час при програмуванні — виконувати одне й те саме завдання на кількох моделях одночасно, а потім порівнювати результати і вирішувати, з якої ви хочете працювати. Одним із цікавих побічних ефектів цього є те, що ми, мабуть, отримуємо найприроднішу оцінку програмування в реальному світі! Всі знають, як легко зробити бенчмакс на фіксованому наборі завдань; Ця оцінка є справжнім тестом того, які моделі найкраще працюють для розробників у повсякденній роботі.