Det er mye forvirring på nettet om hva et RL-miljø egentlig er. Det er bokstavelig talt bare en målestokk. - Et miljø - En starttilstand - En verifikator som sjekker om en slutttilstand er korrekt eller akseptabel Miljøet er en liten sandkasse som gir LLM en mulighet til å faktisk samhandle – iverksette handlinger, se resultater og påvirke verden den er i. Når det gjelder TerminalBench, er det bare en Docker-beholder som emulerer en ekte utviklerterminal, komplett med filer, avhengigheter og systemverktøy modellen kan bruke. Starttilstanden definerer hva modellen ser når oppgaven starter – inndata, kontekst og innledende betingelser. I en kodereferanse kan dette være tilstanden til et Git-repositorium da brukeren først begynte å jobbe: filene, feilrapporten, de mislykkede testene og brukerens startmelding som forteller modellen hva som må gjøres. Det er «problemoppsettet», frosset i tid, slik at hver modell begynner fra samme posisjon og resultatet kan sammenlignes rettferdig. Til slutt er verifikatoren det som gjør det hele målbart. Det er brikken som sjekker om modellen faktisk løste oppgaven – den automatiserte dommeren som gjør rotete resultater til et enkelt poengsum- eller bestått/ikke bestått-signal. Det er derfor du hører folk på laboratorier si "vi trente på verifikatorer". De snakker om å ha en automatisert måte å score modellatferd på. Dette blir da belønningsfunksjonen for RL, eller bestått/ikke bestått-signalet for benchmarks.