¡Una startup de 6 personas con $500k acaba de superar a Microsoft! El MLE-Bench de OpenAI es un estándar que evalúa a los agentes en tareas de ingeniería de Machine Learning. NEO @withneo, el primer agente MLE autónomo, obtuvo un 34.2% frente al 22.4% de Microsoft en el estándar. ¡Esto es enorme!
3,56K