📣 Neuer Vals AI-Benchmark gerade veröffentlicht 📣
Wir haben den SAGE-Benchmark entwickelt, nachdem wir festgestellt haben, dass Modelle Schwierigkeiten haben, die Arbeiten von Schülern zu bewerten. Paradoxerweise können die besten Modelle jetzt herausfordernde Mathematikprobleme lösen + die IMO gewinnen, haben aber Schwierigkeiten, 50 % bei der Bewertung zu erreichen.
(1/5)
Sonnet 4.5 wurde gerade veröffentlicht – es belegt den 1. Platz in unseren Finanz- und Programmierbenchmarks! Wir hatten die Gelegenheit, das neue @claudeai Modell vor dem Start zu testen und fanden es außergewöhnlich leistungsfähig, insbesondere für agentische Anwendungen.
(1/6)
GPT-5 Codex erzielte beeindruckende Leistungen in fast allen Benchmarks, die wir bewertet haben! Am bemerkenswertesten ist die Verbesserung um 10 % im Terminal-Bench im Vergleich zum vorherigen #1, GPT-5. Glückwunsch an das @OpenAI-Team zu einem starken Codierungsmodell!
(1/6)