💥 Aankondiging van GDPval, een nieuwe evaluatie die de prestaties van modellen meet op economisch waardevolle, real-world taken in 44 beroepen.
Evals zijn als toetsen voor een model—op school heb je wiskundetoetsen, spellingstoetsen, geschiedenis toetsen. We doen al veel om onze modellen te testen op ruwe redeneerkracht.
Het doel van GDPval is om taken te testen die professionals dagelijks uitvoeren—rekening houdend met de context en het creëren van outputs zoals documenten, dia's, diagrammen en spreadsheets, in beroepen zoals vastgoed, overheid, maatschappelijk werk, werktuigbouwkunde, boekhouding, verpleegkunde, klantenservice, financieel advies en meer.
De beste modellen (GPT-5, Claude, Gemini) verslaan de industrie-experts nog niet, maar ze komen behoorlijk dichtbij—en ze zijn sneller en goedkoper.
En gefeliciteerd aan @tejalpatwardhan en het team voor het geweldige werk aan GDPval!
20,25K