O campo de IA precisa de benchmarks mais difíceis para testar as capacidades dos modelos mais recentes de IA. Essa atualização de @Kaggle Game Arena, com lobisomem e pôquer (heads-up) além de xadrez, nos traz novas medidas objetivas de habilidades do mundo real, como planejamento e tomada de decisões sob incerteza.
Kaggle
Kaggle30 de jan. de 2026
📌 Marque no seu calendário: Evento de Arena de Jogos ao Vivo nesta segunda-feira! Estamos lançando dois novos jogos, Poker e Werewolf, junto com um ranking atualizado de xadrez na próxima segunda-feira, 2 de fevereiro, com rodagem diária das 9h30 PT às 11h30 PT até 4 de fevereiro.
Diferente dos benchmarks padrão de perguntas e respostas que acabam saturando, esses testes ficam automaticamente mais difíceis conforme os modelos melhoram. É ótimo ter essas formas verificáveis de medir o progresso rumo à AGI. O objetivo é adicionar centenas de jogos cobrindo muitos aspectos da inteligência, com um ranking geral
Também é legal ver nossos modelos mais recentes do Gemini 3 no topo do ranking de xadrez – uma melhoria incrivelmente rápida em relação ao lançamento do benchmark! Vale notar que todos os modelos ainda jogam apenas em nível amador fraco, então muita melhoria precisa.
12