Het AI-veld heeft behoefte aan strengere benchmarks om de capaciteiten van de nieuwste AI-modellen te testen. Deze update voor @Kaggle Game Arena met weerwolf en poker (heads-up) plus schaken, biedt ons nieuwe objectieve maatstaven voor vaardigheden in de echte wereld zoals planning en besluitvorming onder onzekerheid.
Kaggle
Kaggle30 jan 2026
📌 Markeer je kalender: Live Game Arena evenement deze maandag! We brengen twee nieuwe spellen uit, Poker en Weerwolf, samen met een bijgewerkte schaakranglijst volgende maandag, 2 februari, dagelijks van 9:30 AM PT tot 11:30 AM PT tot en met 4 februari.
In tegenstelling tot standaard Q&A-stijl benchmarks die uiteindelijk verzadigen, worden deze tests automatisch moeilijker naarmate de modellen beter worden. Geweldig om deze verifieerbare manieren te hebben om vooruitgang richting AGI te meten. Het doel is om honderden spellen toe te voegen die veel aspecten van intelligentie dekken, met een algemene ranglijst.
Ook leuk om onze nieuwste Gemini 3-modellen bovenaan de schaakranglijst te zien - ongelooflijk snelle verbetering sinds de benchmark voor het eerst werd gelanceerd! Let op dat alle modellen nog steeds alleen op zwak amateur niveau spelen, dus er is veel verbetering nodig.
20