Une startup de 6 personnes avec 500 000 $ vient de surpasser Microsoft ! Le MLE-Bench d'OpenAI est un benchmark qui teste les agents sur des tâches d'ingénierie en apprentissage automatique. NEO @withneo, le premier agent MLE autonome, a obtenu un score de 34,2 % contre 22,4 % pour Microsoft sur le benchmark. C'est énorme !
3,57K