Ein 6-Personen-Startup mit 500.000 $ hat gerade Microsoft übertroffen! OpenAIs MLE-Bench ist ein Benchmark, der Agenten bei Aufgaben im Bereich Machine Learning Engineering testet. NEO @withneo, der erste autonome MLE-Agent, erzielte 34,2 % im Vergleich zu Microsofts 22,4 % im Benchmark. Das ist riesig!
3,57K