📣 Právě byl vydán 📣 nový benchmark Vals AI Benchmark SAGE jsme vytvořili poté, co jsme zjistili, že modely mají potíže s hodnocením studentských prací. Paradoxně nejlepší modely nyní mohou řešit náročné matematické problémy + vyhrát IMO, ale při hodnocení se jim nedaří překonat 50%. (1/5)