📣 Ny Vals AI-benchmark nettopp utgitt 📣 Vi bygde SAGE-referansen etter å ha funnet ut at modeller sliter med å vurdere elevarbeid. Paradoksalt nok kan de beste modellene nå løse utfordrende matematiske problemer + vinne IMO, men sliter med å bryte 50 % når de vurderer. (1/5)