Startup 6 orang dengan $500k baru saja mengungguli Microsoft! MLE-Bench OpenAI adalah tolok ukur yang menguji agen pada tugas teknik Machine Learning. NEO @withneo, agen MLE otonom pertama, mencetak 34,2% vs Microsoft 22,4% pada benchmark. Ini sangat besar!
3,56K