Стартап із 6 осіб із 500 тисячами доларів щойно перевершив Microsoft! MLE-Bench від OpenAI — це еталон, який тестує агентів на інженерних завданнях Machine Learning. NEO @withneo, перший автономний агент MLE, набрав 34,2% проти 22,4% у Microsoft. Це величезно!
3,27K