熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
為什麼機器人看起來笨笨的?結合最近看的奇幻電視劇,“妖變人沒有那麼簡單”,“鋼鐵變人“也是如此。
機器人最重要的兩部分,頭腦和身體。簡單說他的笨笨,是在替代做人這件事情上,他的頭腦差一點,身體也差一點。本文先說上半部分,頭腦🧠。
頭腦如何變聰明,需要天量的數據訓練。機器人的語言模型既有VLM(視覺-語言模型)又有LLM(大語言模型)。
為什麼機器人需要 VLM?因為語言模型沒有眼睛,只能“聽懂”但看不到世界。比如你說“幫我拿起桌上左邊的水杯”,機器人必須“看見”才能行動。單靠視覺模型也不夠,視覺模型能識別物體,但不會理解人類語言和意圖。
VLM = 融合大腦和眼睛
人類指令(語言)+ 環境感知(視覺) → 統一轉化成動作計劃。
我們現在所習慣的自動駕駛事實上也是VLM。只是自動駕駛需要學習的數據少的多。畢竟人形機器人模仿人,他的應用場景多樣性和複雜度都是下一個維度。
而在VLM訓練上,機器人所需的數據量和實際的數據量仍有巨大的差距。現在產生這些數據的方式主要是“動作捕捉”和“VR遠程操作”。這種數據採集方式成本極高+效率低,貢獻的數據量也不夠。
同時這些來自特殊採集方式的數據往往缺少“泛化性”。機器人訓練常常在乾淨、可控的環境:桌子上放幾個常見物體(瓶子、杯子、積木)。但現實裡:杯子可能是半透明的、反光的、被紙巾擋住一半。家裡/工廠環境有各種干擾(雜物、噪音、人走來走去)。訓練數據缺少這種“長尾情況”,所以一旦環境變化,機器人就“笨”了。
4.66K
熱門
排行
收藏