Den knappeste ressursen du har som ingeniør er din egen tid. Ulike modeller topper på forskjellige oppgaver, og alle LLM-er kan av og til være ustabile, så en naturlig måte å spare tid på ved koding er å kjøre samme oppgave på flere modeller samtidig, og så sammenligne resultatene og bestemme hvilken du foretrekker å jobbe ut fra. En av de morsomme bivirkningene av dette er at vi kanskje får den mest naturlige virkelige kodeevalueringen som finnes! Alle vet hvor lett det er å benkmaxe på et fast sett med oppgaver; Denne evalueringen er en ekte test på hvilke modeller som fungerer best for utviklere i deres daglige arbeid.