Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

В ImageNet было что-то глубоко удовлетворяющее. У него был хорошо подобранный обучающий набор. Четко определенный протокол тестирования. Соревнование, которое объединило лучших исследователей. И таблица лидеров, которая породила ResNets и ViTs и в конечном итоге изменила эту область навсегда. Затем последовала NLP. Независимо от того, насколько OpenAI, Anthropic и xAI не согласны, они, по крайней мере, согласны в одном: бенчмаркинг. MMLU, HLE, SWEBench - вы не можете добиться прогресса, пока не сможете его измерить. В робототехнике все еще нет такого объединяющего призыва. Никто ни с чем не согласен: оборудование, задача, оценка, симуляционный движок или реальная среда. Каждый по определению является SOTA на бенчмарке, который они определяют на лету для каждой статьи. От создателя ImageNet - BEHAVIOR пытается решить сложную задачу унификации бенчмаркинга в робототехнике на воспроизводимом физическом движке (Isaac Sim). Проект начался до того, как я закончил Стэнфордский исследовательский центр, и потребовал многих лет преданности и карьер PhD для его создания. Я надеюсь, что BEHAVIOR либо станет сигналом для восхождения, который нам нужен, либо искрой, которая наконец заставит нас говорить о том, как измерять реальный прогресс в этой области.

Топ

Рейтинг

Избранное