Самый дефицитный ресурс, который у вас есть как у инженера, — это ваше собственное время. Разные модели показывают разные результаты в зависимости от задач, и все LLM могут иногда давать сбои, поэтому естественный способ сэкономить время при кодировании — это запускать одну и ту же задачу на нескольких моделях одновременно, а затем сравнивать результаты и решать, с какой из них вам удобнее работать. Одним из интересных побочных эффектов этого является то, что мы получаем, возможно, самый естественный реальный кодировочный тест! Все знают, как легко добиться максимальных результатов на фиксированном наборе задач; этот тест действительно проверяет, какие модели лучше всего подходят для разработчиков в их повседневной работе.