El campo de la IA necesita estándares más rigurosos para evaluar las capacidades de los últimos modelos de IA. Esta actualización de @Kaggle Game Arena con hombre lobo y póker (cara a cara) además de ajedrez, nos proporciona nuevas medidas objetivas de habilidades del mundo real como la planificación y la toma de decisiones bajo incertidumbre.
Kaggle
Kaggle30 ene 2026
📌 Marca tu calendario: ¡Evento en vivo de Game Arena este lunes! Lanzaremos dos nuevos juegos, Póker y Hombre Lobo, junto con una tabla de clasificación de Ajedrez actualizada el próximo lunes, 2 de febrero, que se llevará a cabo diariamente de 9:30 AM PT a 11:30 AM PT hasta el 4 de febrero.
A diferencia de los benchmarks estándar de preguntas y respuestas que eventualmente se saturan, estas pruebas se vuelven más difíciles a medida que los modelos mejoran. Es genial tener estas formas verificables de medir el progreso hacia la AGI. El objetivo es añadir cientos de juegos que cubran muchos aspectos de la inteligencia, con una tabla de clasificación general.
También es genial ver nuestros últimos modelos Gemini 3 en la cima de la tabla de clasificación de ajedrez: ¡increíble mejora rápida desde que se lanzó el benchmark por primera vez! Tenga en cuenta que todos los modelos todavía solo juegan a un nivel débil de aficionado, por lo que se necesita mucha mejora.
41