Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чому роботи виглядають тупими? У поєднанні з фентезійним серіалом, який я дивився нещодавно, «Монстри не такі прості», і те саме стосується «Сталь для людини».
Дві найважливіші частини робота – розум і тіло. Простіше кажучи, його дурість полягає в тому, що в питанні того, щоб бути замінником буття людиною, його розум трохи гірше, і тіло теж трохи гірше. У цій статті спочатку йдеться про першу половину, про розум 🧠 .
Як стати розумним, потрібно провести величезну кількість навчання роботі з даними. Мовні моделі роботів включають як VLM (vision-language model), так і LLM (велику мовну модель).
Навіщо роботам VLM? Оскільки мовні моделі не мають очей, вони можуть лише «розуміти», але не можуть бачити світ. Наприклад, якщо ви кажете: «Допоможіть мені підняти склянку для води з лівого боку столу», робот повинен «бачити», щоб діяти. Одних візуальних моделей недостатньо, вони можуть впізнавати предмети, але не розуміють людської мови та намірів.
ВЛМ = злиття мозку та ока
Людські інструкції (мова) + сприйняття навколишнього середовища (бачення) → об'єднані в плани дій.
Звичне нам зараз автономне водіння – це фактично VLM. Просто для автономного водіння потрібно вчитися набагато меншій кількості даних. Адже людиноподібні роботи імітують людей, а різноманітність і складність сценаріїв їх застосування – це наступний вимір.
У навчанні VLM все ще існує величезний розрив між обсягом даних, необхідних роботу, і фактичним обсягом даних. Основними способами генерації цих даних є «захоплення руху» та «віддалена робота VR». Цей метод збору даних надзвичайно дорогий + неефективний, а обсяг внесених даних недостатній.
У той же час цим даним за допомогою спеціальних методів збору часто бракує «узагальнення». Навчання роботів часто проводиться в чистому, контрольованому середовищі: на столі розміщують кілька звичайних предметів (пляшок, чашок, кубиків). Але насправді: чашка може бути напівпрозорою, світловідбиваючою і наполовину заблокованою паперовим рушником. Різні відволікаючі фактори (безлад, шум, люди, що ходять навколо) в домашньому/заводському середовищі. У даних тренувань відсутня ця «ситуація з довгим хвостом», тому як тільки середовище змінюється, робот стає «дурним».
4,66K
Найкращі
Рейтинг
Вибране