一个拥有50万美元的6人初创公司刚刚超越了微软! OpenAI的MLE-Bench是一个测试代理在机器学习工程任务上表现的基准。 NEO @withneo,首个自主MLE代理,在基准测试中得分34.2%,而微软仅为22.4%。 这太重要了!
3.6K