Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oblast AI potřebuje náročnější benchmarky pro testování schopností nejnovějších AI modelů. Tato aktualizace @Kaggle Game Arena s vlkodlakem a pokerem (heads-up) plus šachy nám přináší nové objektivní ukazatele reálných dovedností, jako je plánování a rozhodování v nejistotě.

30. 1. 2026
📌 Zapište si do kalendáře: Živá akce v aréně tento pondělí!
Příští pondělí 2. února vydáváme dvě nové hry, Poker a Werewolf, spolu s aktualizovaným šachovým žebříčkem, který bude běžet denně od 9:30 do 11:30 PT až do 4. února.
Na rozdíl od standardních Q&A benchmarků, které se nakonec nasytí, tyto testy automaticky ztěžují, jak se modely zlepšují. Je skvělé mít tyto ověřitelné způsoby, jak měřit pokrok směrem k AGI. Cílem je přidat stovky her pokrývajících různé aspekty inteligence, s celkovým žebříčkem
Je také skvělé vidět naše nejnovější modely Gemini 3 na vrcholu šachového žebříčku – neuvěřitelně rychlé zlepšení oproti tomu, když benchmark poprvé vyšel! Všimněte si, že všechny modely stále hrají jen na slabé amatérské úrovni, takže je potřeba hodně zlepšení.

11
Top
Hodnocení
Oblíbené
