Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Annonce de GDPval, une nouvelle évaluation qui mesure la performance des modèles sur des tâches réelles économiquement précieuses dans 44 professions.
Les évaluations sont comme des tests pour un modèle—à l'école, vous avez des tests de mathématiques, des tests d'orthographe, des tests d'histoire. Nous faisons beaucoup pour tester nos modèles sur leur puissance de raisonnement brute.
L'objectif de GDPval est de tester les tâches que les professionnels effectuent au quotidien : prendre en compte le contexte et créer des résultats tels que des documents, des diapositives, des diagrammes et des tableurs, dans des professions telles que l'immobilier, le gouvernement, le travail social, le génie mécanique, la comptabilité, les soins infirmiers, le service client, le conseil financier, et plus encore.
Les meilleurs modèles (GPT-5, Claude, Gemini) ne battent pas encore les experts du secteur, mais ils s'en rapprochent et ils sont plus rapides et moins chers.
Et félicitations à @tejalpatwardhan et à l'équipe pour leur travail incroyable sur GDPval !
20,26K
Meilleurs
Classement
Favoris