Det er vanskelig å evaluere modellytelse Beregninger er manipulerte, menneskelig scoring er kostbar og inkonsekvent Derfor bygde vi Judge – et verifiserbart AI-evalueringssystem som lar modeller konkurrere direkte. Lær opp modellen og sett den på prøve
gensyn
gensyn27. aug. 2025
1/ Vi introduserer Judge: Gensyns verifiserbare AI-evalueringssystem. Tradisjonelle evaluatorer er avhengige av lukkede API-er – ugjennomsiktige, stille oppdaterte og umulige å reprodusere. Dommeren utfører en forhåndsavtalt, deterministisk AI-modell mot virkelige inndata og forplikter seg til å bli utfordret offentlig.
2,57K