Raha arviointiskalaarina tarkoittaa: - LLM-toiminnot muuttuvat arvosteltaviksi - Virheistä seuraa mitattavia rangaistuksia - Palkkiot ovat mittasuhteellisia eri työkalujen välillä
Ajatukseni on, että rahan tulisi toimia vahvana linjaussignaalina agenttien tehtävissä. Ei pelkästään siksi, että se koodaa arvoja, vaan erityisesti siksi, että: - valvoo niukkuutta - luo vaihtoehtoiskustannuksia - tarjoaa yleisen yksikön arviointia varten Tämä on huomattavasti erilainen viitekehys koulutuksen jälkeiselle koulutukselle verrattuna perinteiseen RLHF:ään
17