Hôm nay, chúng tôi giới thiệu một bước tiến trong AI robot @sundayrobotics. Giới thiệu ACT-1: Một mô hình nền tảng robot tiên phong được đào tạo trên dữ liệu robot bằng không. - Nhiệm vụ dài hạn siêu dài - Tổng quát không cần ví dụ - Khả năng khéo léo tiên tiến 🧵->
Thay vì điều khiển từ xa, chúng tôi chỉ đào tạo dựa trên dữ liệu từ Găng tay Ghi lại Kỹ năng của chúng tôi. Găng tay được thiết kế chung với tay của Memo, có nghĩa là chúng chia sẻ cùng một hình học và bộ cảm biến. Nếu bạn có thể làm điều đó khi đeo găng tay, Memo có thể học được.
Găng tay Skill Capture mang lại cho chúng ta hiệu quả vốn cao gấp hai lần so với điều khiển từ xa (200 đô la so với 20.000 đô la) Nó cũng cho phép chúng ta mở rộng sự đa dạng nhanh hơn. Bạn có thể thu thập dữ liệu ở bất kỳ đâu mà không cần phải di chuyển robot.
Găng tay Skill Capture căn chỉnh bàn tay, nhưng còn phần còn lại của cơ thể thì sao? Những người thu thập khác nhau về chiều cao và chiều dài cánh tay, và cũng khác nhau về hình thức. Chúng tôi đã phát triển Skill Transform, một phương pháp chuyển đổi dữ liệu găng tay thành dữ liệu robot tương đương với tỷ lệ thành công trên 90%.
Chúng tôi đã mất hơn một năm để xây dựng cơ sở hạ tầng cốt lõi. Sau đó, chúng tôi đã dành 3 tháng qua để sản xuất tất cả các kết quả tự động ở trên. Dưới đây, tôi sẽ nêu bật một số phần yêu thích của tôi trong bản phát hành này.
Nhiệm vụ từ bàn đến máy rửa chén là kịch bản ác mộng kinh điển cho các nhà robot học: Manipulation toàn thân, chính xác, khéo léo, với tầm nhìn dài kết hợp với các vật thể tinh tế, trong suốt, phản chiếu và có thể biến dạng. Tuy nhiên, Memo xử lý nó một cách tự nhiên và thanh lịch.
Cụ thể, việc tải ly rượu là nhiệm vụ phụ tinh tế nhất: Đè xuống quá mạnh? Vỡ. Chèn nhầm chấu? Vỡ. Chúng tôi đã làm vỡ nhiều cái trong quá trình phát triển, nhưng không có cái nào trong hơn 20 buổi trình diễn trực tiếp.
Một sự thật ít được biết đến về việc thu thập dữ liệu dựa trên găng tay: nó tạo ra dữ liệu chất lượng cao hơn so với điều khiển từ xa trong các nhiệm vụ có nhiều tiếp xúc. Điều khiển từ xa không thể cung cấp phản hồi lực tốt, nhưng găng tay thì có một cách tự nhiên, làm cho các nhiệm vụ như gấp tất, mà phụ thuộc vào cảm giác, dễ dàng hơn nhiều để ghi lại.
Thật thú vị hơn khi thấy cách Memo phản ứng với những môi trường chưa thấy. Chúng tôi triển khai nó đến 6 Airbnb chưa thấy và giao cho robot những nhiệm vụ chi tiết như nhặt dụng cụ từ đĩa. Bởi vì chúng tôi huấn luyện trên dữ liệu từ hơn 500 ngôi nhà, ngôi nhà mới ngay lập tức trở nên quen thuộc với Memo.
13,12K