DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O campo de IA precisa de benchmarks mais difíceis para testar as capacidades dos modelos mais recentes de IA. Essa atualização de @Kaggle Game Arena, com lobisomem e pôquer (heads-up) além de xadrez, nos traz novas medidas objetivas de habilidades do mundo real, como planejamento e tomada de decisões sob incerteza.

Diferente dos benchmarks padrão de perguntas e respostas que acabam saturando, esses testes ficam automaticamente mais difíceis conforme os modelos melhoram. É ótimo ter essas formas verificáveis de medir o progresso rumo à AGI. O objetivo é adicionar centenas de jogos cobrindo muitos aspectos da inteligência, com um ranking geral

Também é legal ver nossos modelos mais recentes do Gemini 3 no topo do ranking de xadrez – uma melhoria incrivelmente rápida em relação ao lançamento do benchmark! Vale notar que todos os modelos ainda jogam apenas em nível amador fraco, então muita melhoria precisa.

12

Melhores

Classificação

Favoritos