6 ドルの 500 人規模のスタートアップが Microsoft を上回りました。 OpenAI の MLE-Bench は、機械学習エンジニアリング タスクでエージェントをテストするベンチマークです。 最初の自律型 MLE エージェントである NEO @withneo は、ベンチマークで Microsoft の 22.4% に対して 34.2% のスコアを獲得しました。 これは巨大です!
3.57K