💥 Anunciamos GDPval, una nueva evaluación que mide el rendimiento del modelo en tareas del mundo real económicamente valiosas en 44 ocupaciones.
Las evaluaciones son como pruebas para un modelo: en la escuela tienes pruebas de matemáticas, pruebas de ortografía, pruebas de historia. Ya hacemos mucho para probar nuestros modelos en caballos de fuerza de razonamiento en bruto.
El objetivo de GDPval es probar las tareas que los profesionales realizan a diario, tomando en contexto y creando resultados como documentos, diapositivas, diagramas y hojas de cálculo, en ocupaciones como bienes raíces, gobierno, trabajo social, ingeniería mecánica, contabilidad, enfermería, servicio al cliente, asesoramiento financiero y más.
Los mejores modelos (GPT-5, Claude, Gemini) aún no superan a los expertos de la industria, pero se están acercando bastante, y son más rápidos y baratos.
¡Y felicitaciones a @tejalpatwardhan y al equipo por el increíble trabajo en GDPval!
19.08K