Сьогодні ми представляємо крокову зміну у роботизованому AI @sundayrobotics. Знайомимося з ACT-1: базовою моделлю робота на фронтирі, навченою на нульових даних про роботів. - Завдання з наддовготривалим горизонтом - Узагальнення з нульовим пострілом - Підвищена спритність 🧵->
Замість телеоперації ми тренуємося виключно на даних з нашої рукавички Skill Capture. Рукавичка розроблена разом із рукою Мемо, тобто вони мають однакову геометрію та сенсорний набір. Якщо ти можеш це робити в рукавичці, Мемо може це вивчити.
Рукавичка захоплення навичок дає нам у два рази вищу ефективність капіталу порівняно з телеоперацією ($200 проти $20,000) Це також дозволяє швидше масштабувати різноманітність. Ви можете збирати дані будь-де, не переміщуючи роботів.
Skill Capture Glove вирівнює руки, а як щодо решти тіла? Людські колекціонери відрізняються за зростом і довжиною рук, а також візуально різними. Ми розробили Skill Transform — метод, який перетворює дані рукавичок на еквівалентні дані роботів з коефіцієнтом успіху 90%+.
Нам знадобився понад рік, щоб спроектувати основну інфраструктуру. Потім ми витратили останні 3 місяці, щоб отримати всі автономні результати, згадані вище. Нижче я виділяю деякі з моїх улюблених моментів цього релізу.
Завдання від столу до посудомийної машини — це класичний кошмарний сценарій для робототехніків: Довгий горизонт, надзвичайно спритний, точний маніпулятив усім тілом у поєднанні з делікатними, прозорими, відбиваючими та деформуваними об'єктами. Проте Мемо робить це так природно і елегантно.
Зокрема, навантаження келихів для вина є найделікатнішим підзавданням: Натискати занадто сильно? Зруйнувати. Вставити неправильний штифт? Зруйнувати. Ми зламали багато під час розробки, але жодного з них не було більше ніж 20+ живих демо-сесій.
Один менш відомий факт про збор даних на основі рукавичок: він дає дані вищої якості, ніж teleop для завдань, насичених контактами. Віддалений телеоп не дає хорошого силового зворотного зв'язку, але рукавички це роблять природно, що робить такі завдання, як складання шкарпеток, які покладаються на відчуття, значно легшими для захоплення.
Ще цікавіше спостерігати, як Мемо реагує на невидимі локації. Ми розгортаємо його на 6 невидимих Airbnb і доручаємо роботу дрібні завдання, наприклад, підбирати столові прибори з тарілки. Оскільки ми навчаємося на даних з понад 500 будинків, новий дім миттєво знайомий Memo.
13,13K