Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Почему роботы выглядят глуповато? В сочетании с недавно просмотренным фэнтезийным сериалом, "Преобразование в человека не так просто", "Сталь в человека" тоже так.
Две самые важные части робота — это разум и тело. Проще говоря, его глупость заключается в том, что в замене человека он немного отстает в разуме и немного в теле. В этой статье сначала поговорим о верхней части — разуме 🧠.
Как сделать разум более умным? Для этого требуется огромное количество данных для обучения. Языковая модель робота включает как VLM (визуально-языковая модель), так и LLM (большая языковая модель).
Почему роботу нужна VLM? Потому что языковая модель не имеет глаз, она может только "слышать", но не видеть мир. Например, если вы скажете: "Помоги мне поднять стакан с левой стороны стола", робот должен "увидеть", чтобы действовать. Одного лишь визуального моделирования недостаточно, визуальная модель может распознавать объекты, но не понимает человеческий язык и намерения.
VLM = объединение мозга и глаз
Человеческие команды (язык) + восприятие окружающей среды (визуальное) → единое преобразование в план действий.
То, к чему мы сейчас привыкли в автоматическом вождении, на самом деле тоже является VLM. Просто для автоматического вождения требуется гораздо меньше данных для обучения. В конце концов, гуманоидный робот имитирует человека, его разнообразие и сложность применения находятся на следующем уровне.
Однако в обучении VLM объем данных, необходимый для робота, и фактический объем данных все еще имеют огромный разрыв. В настоящее время способы получения этих данных в основном заключаются в "захвате движений" и "VR-дистанционном управлении". Этот способ сбора данных имеет очень высокую стоимость и низкую эффективность, а объем данных, который он предоставляет, также недостаточен.
В то же время данные, полученные из специальных способов сбора, часто лишены "обобщаемости". Обучение роботов часто происходит в чистой, контролируемой среде: на столе лежат несколько обычных объектов (бутылки, стаканы, кубики). Но в реальности: стакан может быть полупрозрачным, отражающим, закрытым половиной бумажного полотенца. В домашних/заводских условиях есть различные помехи (беспорядок, шум, люди, проходящие мимо). Обучающие данные не учитывают такие "долгие хвостовые ситуации", поэтому, как только окружающая среда меняется, робот становится "глупым".
4,65K
Топ
Рейтинг
Избранное