Почему роботы выглядят глуповато? В сочетании с недавно просмотренным фэнтезийным сериалом, "Преобразование в человека не так просто", "Сталь в человека" тоже так. Две самые важные части робота — это разум и тело. Проще говоря, его глупость заключается в том, что в замене человека он немного отстает в разуме и немного в теле. В этой статье сначала поговорим о верхней части — разуме 🧠. Как сделать разум более умным? Для этого требуется огромное количество данных для обучения. Языковая модель робота включает как VLM (визуально-языковая модель), так и LLM (большая языковая модель). Почему роботу нужна VLM? Потому что языковая модель не имеет глаз, она может только "слышать", но не видеть мир. Например, если вы скажете: "Помоги мне поднять стакан с левой стороны стола", робот должен "увидеть", чтобы действовать. Одного лишь визуального моделирования недостаточно, визуальная модель может распознавать объекты, но не понимает человеческий язык и намерения. VLM = объединение мозга и глаз Человеческие команды (язык) + восприятие окружающей среды (визуальное) → единое преобразование в план действий. То, к чему мы сейчас привыкли в автоматическом вождении, на самом деле тоже является VLM. Просто для автоматического вождения требуется гораздо меньше данных для обучения. В конце концов, гуманоидный робот имитирует человека, его разнообразие и сложность применения находятся на следующем уровне. Однако в обучении VLM объем данных, необходимый для робота, и фактический объем данных все еще имеют огромный разрыв. В настоящее время способы получения этих данных в основном заключаются в "захвате движений" и "VR-дистанционном управлении". Этот способ сбора данных имеет очень высокую стоимость и низкую эффективность, а объем данных, который он предоставляет, также недостаточен. В то же время данные, полученные из специальных способов сбора, часто лишены "обобщаемости". Обучение роботов часто происходит в чистой, контролируемой среде: на столе лежат несколько обычных объектов (бутылки, стаканы, кубики). Но в реальности: стакан может быть полупрозрачным, отражающим, закрытым половиной бумажного полотенца. В домашних/заводских условиях есть различные помехи (беспорядок, шум, люди, проходящие мимо). Обучающие данные не учитывают такие "долгие хвостовые ситуации", поэтому, как только окружающая среда меняется, робот становится "глупым".
4,65K