📣 Neuer Vals AI-Benchmark gerade veröffentlicht 📣 Wir haben den SAGE-Benchmark entwickelt, nachdem wir festgestellt haben, dass Modelle Schwierigkeiten haben, die Arbeiten von Schülern zu bewerten. Paradoxerweise können die besten Modelle jetzt herausfordernde Mathematikprobleme lösen + die IMO gewinnen, haben aber Schwierigkeiten, 50 % bei der Bewertung zu erreichen. (1/5)