Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tại sao robot trông có vẻ ngốc nghếch? Kết hợp với bộ phim kỳ ảo gần đây tôi đã xem, "Biến hình không đơn giản như vậy", "Biến hình sắt cũng vậy".
Hai phần quan trọng nhất của robot là đầu óc và cơ thể. Nói đơn giản, sự ngốc nghếch của nó là do trong việc thay thế con người, đầu óc của nó kém một chút, cơ thể cũng kém một chút. Bài viết này sẽ nói về phần đầu tiên, đầu óc 🧠.
Đầu óc làm thế nào để trở nên thông minh hơn, cần một lượng dữ liệu khổng lồ để huấn luyện. Mô hình ngôn ngữ của robot bao gồm cả VLM (mô hình ngôn ngữ-visual) và LLM (mô hình ngôn ngữ lớn).
Tại sao robot cần VLM? Bởi vì mô hình ngôn ngữ không có mắt, chỉ có thể "hiểu" nhưng không thể nhìn thấy thế giới. Ví dụ, nếu bạn nói "giúp tôi lấy cốc nước bên trái trên bàn", robot phải "nhìn thấy" để có thể hành động. Chỉ dựa vào mô hình thị giác cũng không đủ, mô hình thị giác có thể nhận diện vật thể nhưng không hiểu ngôn ngữ và ý định của con người.
VLM = kết hợp giữa não và mắt
Lệnh của con người (ngôn ngữ) + nhận thức môi trường (thị giác) → chuyển đổi thống nhất thành kế hoạch hành động.
Những gì chúng ta quen thuộc với lái xe tự động thực tế cũng là VLM. Chỉ là dữ liệu mà lái xe tự động cần học ít hơn nhiều. Dù sao, robot hình người bắt chước con người, sự đa dạng và độ phức tạp của các tình huống ứng dụng của nó là một chiều kích tiếp theo.
Và trong việc huấn luyện VLM, lượng dữ liệu mà robot cần và lượng dữ liệu thực tế vẫn còn chênh lệch lớn. Hiện tại, cách tạo ra những dữ liệu này chủ yếu là "bắt chuyển động" và "vận hành từ xa VR". Cách thu thập dữ liệu này có chi phí rất cao + hiệu quả thấp, lượng dữ liệu đóng góp cũng không đủ.
Đồng thời, những dữ liệu đến từ các phương pháp thu thập đặc biệt này thường thiếu "tính tổng quát". Huấn luyện robot thường diễn ra trong môi trường sạch sẽ, có thể kiểm soát: trên bàn có vài vật thể thông thường (chai, cốc, khối xây dựng). Nhưng trong thực tế: cốc có thể là trong suốt, phản chiếu, bị khăn giấy che một nửa. Môi trường ở nhà/xưởng có nhiều yếu tố gây nhiễu (đồ đạc, tiếng ồn, người đi lại). Dữ liệu huấn luyện thiếu những "tình huống đuôi dài" này, vì vậy một khi môi trường thay đổi, robot sẽ trở nên "ngốc".
4,64K
Hàng đầu
Thứ hạng
Yêu thích