Una startup di 6 persone con 500k$ ha appena superato Microsoft! L'MLE-Bench di OpenAI è un benchmark che testa gli agenti su compiti di ingegneria del Machine Learning. NEO @withneo, il primo agente MLE autonomo, ha ottenuto il 34,2% contro il 22,4% di Microsoft nel benchmark. Questo è enorme!
1,31K