📣 Nieuwe Vals AI benchmark net vrijgegeven 📣 We hebben de SAGE benchmark ontwikkeld nadat we ontdekten dat modellen moeite hebben met het beoordelen van studentenwerk. Paradoxaal genoeg kunnen de beste modellen nu uitdagende wiskundeproblemen oplossen + winnen op de IMO, maar hebben ze moeite om boven de 50% te komen bij het beoordelen. (1/5)