¡Una startup de 6 personas con $ 500k acaba de superar a Microsoft! MLE-Bench de OpenAI es un punto de referencia que prueba a los agentes en tareas de ingeniería de aprendizaje automático. NEO @withneo, el primer agente autónomo de MLE, obtuvo un 34,2% frente al 22,4% de Microsoft en el índice de referencia. ¡Esto es enorme!
3.54K