Startup składający się z 6 osób z budżetem 500 tys. dolarów właśnie przewyższył Microsoft! MLE-Bench OpenAI to benchmark, który testuje agentów w zadaniach inżynierii uczenia maszynowego. NEO @withneo, pierwszy autonomiczny agent MLE, uzyskał wynik 34,2% w porównaniu do 22,4% Microsoftu w tym benchmarku. To jest ogromne!
3,57K