Startup o 6 lidech s 500 tisíci dolary právě překonal Microsoft! MLE-Bench od OpenAI je benchmark, který testuje agenty na inženýrských úlohách strojového učení. NEO @withneo, první autonomní agent MLE, dosáhl ve srovnávacím testu 34,2 % oproti 22,4 % společnosti Microsoft. To je obrovské!
987