Lĩnh vực AI đang cần những tiêu chuẩn khó hơn để kiểm tra khả năng của các mô hình AI mới nhất. Cập nhật này cho @Kaggle Game Arena với trò sói và poker (đối kháng) cùng với cờ vua, mang đến cho chúng ta những thước đo khách quan mới về các kỹ năng thực tế như lập kế hoạch và ra quyết định trong điều kiện không chắc chắn.
Kaggle
Kaggle30 thg 1, 2026
📌 Đánh dấu lịch của bạn: Sự kiện Arena Game Trực tiếp vào thứ Hai này! Chúng tôi sẽ phát hành hai trò chơi mới, Poker và Werewolf, cùng với bảng xếp hạng Cờ vua được cập nhật vào thứ Hai tới, ngày 2 tháng 2, diễn ra hàng ngày từ 9:30 AM PT đến 11:30 AM PT cho đến ngày 4 tháng 2.
Khác với các tiêu chuẩn kiểu Q&A thông thường mà cuối cùng sẽ bão hòa, những bài kiểm tra này tự động trở nên khó hơn khi các mô hình ngày càng tốt hơn. Thật tuyệt khi có những cách xác minh này để đo lường tiến trình hướng tới AGI. Mục tiêu là thêm hàng trăm trò chơi bao phủ nhiều khía cạnh của trí thông minh, với một bảng xếp hạng tổng thể.
Cũng thật tuyệt khi thấy các mô hình Gemini 3 mới nhất của chúng tôi đứng đầu bảng xếp hạng cờ vua - sự cải thiện nhanh chóng đáng kinh ngạc từ khi tiêu chuẩn đầu tiên được ra mắt! Lưu ý rằng tất cả các mô hình vẫn chỉ chơi ở mức nghiệp dư yếu, vì vậy cần nhiều cải thiện.
19