En oppstart på 6 personer med $500k har nettopp overgått Microsoft! OpenAIs MLE-Bench er en målestokk som tester agenter på maskinlæringstekniske oppgaver. NEO @withneo, den første autonome MLE-agenten, scoret 34.2 % mot Microsofts 22.4 % på referanseindeksen. Dette er enormt!
1,32K