💥 Thông báo GDPval, một đánh giá mới đo lường hiệu suất mô hình trên các nhiệm vụ thực tế có giá trị kinh tế, trải rộng qua 44 nghề nghiệp.
Evals giống như các bài kiểm tra cho một mô hình—trong trường bạn có các bài kiểm tra toán, bài kiểm tra chính tả, bài kiểm tra lịch sử. Chúng tôi đã làm rất nhiều để kiểm tra các mô hình của mình về khả năng suy luận thô.
Mục tiêu của GDPval là kiểm tra các nhiệm vụ mà các chuyên gia thực hiện hàng ngày—tiếp nhận ngữ cảnh và tạo ra các đầu ra như tài liệu, slide, sơ đồ và bảng tính, trong các ngành nghề như bất động sản, chính phủ, công tác xã hội, kỹ thuật cơ khí, kế toán, điều dưỡng, dịch vụ khách hàng, tư vấn tài chính, và nhiều hơn nữa.
Các mô hình tốt nhất (GPT-5, Claude, Gemini) vẫn chưa vượt qua các chuyên gia trong ngành, nhưng chúng đang tiến gần hơn—và chúng nhanh hơn và rẻ hơn.
Và chúc mừng @tejalpatwardhan và đội ngũ vì công việc tuyệt vời trên GDPval!
23,95K