Чому роботи виглядають тупими? У поєднанні з фентезійним серіалом, який я дивився нещодавно, «Монстри не такі прості», і те саме стосується «Сталь для людини». Дві найважливіші частини робота – розум і тіло. Простіше кажучи, його дурість полягає в тому, що в питанні того, щоб бути замінником буття людиною, його розум трохи гірше, і тіло теж трохи гірше. У цій статті спочатку йдеться про першу половину, про розум 🧠 . Як стати розумним, потрібно провести величезну кількість навчання роботі з даними. Мовні моделі роботів включають як VLM (vision-language model), так і LLM (велику мовну модель). Навіщо роботам VLM? Оскільки мовні моделі не мають очей, вони можуть лише «розуміти», але не можуть бачити світ. Наприклад, якщо ви кажете: «Допоможіть мені підняти склянку для води з лівого боку столу», робот повинен «бачити», щоб діяти. Одних візуальних моделей недостатньо, вони можуть впізнавати предмети, але не розуміють людської мови та намірів. ВЛМ = злиття мозку та ока Людські інструкції (мова) + сприйняття навколишнього середовища (бачення) → об'єднані в плани дій. Звичне нам зараз автономне водіння – це фактично VLM. Просто для автономного водіння потрібно вчитися набагато меншій кількості даних. Адже людиноподібні роботи імітують людей, а різноманітність і складність сценаріїв їх застосування – це наступний вимір. У навчанні VLM все ще існує величезний розрив між обсягом даних, необхідних роботу, і фактичним обсягом даних. Основними способами генерації цих даних є «захоплення руху» та «віддалена робота VR». Цей метод збору даних надзвичайно дорогий + неефективний, а обсяг внесених даних недостатній. У той же час цим даним за допомогою спеціальних методів збору часто бракує «узагальнення». Навчання роботів часто проводиться в чистому, контрольованому середовищі: на столі розміщують кілька звичайних предметів (пляшок, чашок, кубиків). Але насправді: чашка може бути напівпрозорою, світловідбиваючою і наполовину заблокованою паперовим рушником. Різні відволікаючі фактори (безлад, шум, люди, що ходять навколо) в домашньому/заводському середовищі. У даних тренувань відсутня ця «ситуація з довгим хвостом», тому як тільки середовище змінюється, робот стає «дурним».
4,66K