La risorsa più scarsa che hai come ingegnere è il tuo tempo. Diversi modelli si comportano meglio in compiti diversi e tutti i LLM possono occasionalmente avere delle lacune, quindi un modo naturale per risparmiare tempo quando si programma è eseguire lo stesso compito su più modelli contemporaneamente, per poi confrontare i risultati e decidere quale preferisci utilizzare. Uno degli effetti collaterali divertenti di questo è che otteniamo forse la valutazione di codifica più naturale e realistica in circolazione! Tutti sanno quanto sia facile ottenere il massimo punteggio su un insieme fisso di compiti; questa valutazione è un vero test di quali modelli funzionano meglio per gli sviluppatori nel loro lavoro quotidiano.