Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Anunciamos GDPval, una nueva evaluación que mide el rendimiento del modelo en tareas del mundo real económicamente valiosas en 44 ocupaciones.
Las evaluaciones son como pruebas para un modelo: en la escuela tienes pruebas de matemáticas, pruebas de ortografía, pruebas de historia. Ya hacemos mucho para probar nuestros modelos en caballos de fuerza de razonamiento en bruto.
El objetivo de GDPval es probar las tareas que los profesionales realizan a diario, tomando en contexto y creando resultados como documentos, diapositivas, diagramas y hojas de cálculo, en ocupaciones como bienes raíces, gobierno, trabajo social, ingeniería mecánica, contabilidad, enfermería, servicio al cliente, asesoramiento financiero y más.
Los mejores modelos (GPT-5, Claude, Gemini) aún no superan a los expertos de la industria, pero se están acercando bastante, y son más rápidos y baratos.
¡Y felicitaciones a @tejalpatwardhan y al equipo por el increíble trabajo en GDPval!
19.08K
Populares
Ranking
Favoritas