なぜロボットは愚かに見えるのですか? 最近見たファンタジーテレビシリーズ「モンスターはそんなに単純ではない」と合わせると、「鋼鉄から人間へ」も同様です。 ロボットの最も重要な2つの部分、心と体。 簡単に言えば、彼の愚かさは、人としての代用という点では、心が少し悪く、体も少し悪いということだ。 この文書では、まず前半部の心🧠について話します。 賢くなるには、膨大な量のデータトレーニングが必要です。 ロボットの言語モデルには、VLM(視覚言語モデル)とLLM(大規模言語モデル)の両方があります。 なぜロボットにVLMが必要なのですか? 言語モデルには目がないため、「理解」することしかできず、世界を見ることはできません。 たとえば、「テーブルの左側にある水グラスを拾うのを手伝ってください」と言った場合、ロボットは行動するために「見る」必要があります。 視覚モデルだけでは十分ではなく、物体を認識することはできますが、人間の言語や意図は理解できません。 VLM = 脳と目の融合 人間の指示(言語)+環境認識(視覚)→行動計画に統一されます。 今私たちが慣れ親しんでいる自動運転は、実はVLMです。 ただ、自動運転が学習する必要のあるデータははるかに少ないだけです。 結局のところ、ヒューマノイド ロボットは人間を模倣しており、その応用シナリオの多様性と複雑さは次の次元です。 VLMトレーニングでは、ロボットが必要とするデータ量と実際のデータ量の間には依然として大きなギャップがあります。 このデータを生成する主な方法は、「モーションキャプチャー」と「VRリモート操作」です。 このデータ収集方法は、非常に高価+非効率であり、貢献するデータ量が十分ではありません。 同時に、特別な収集方法からのこれらのデータには「一般化」が欠けていることがよくあります。 ロボットのトレーニングは、多くの場合、クリーンで制御された環境で行われ、いくつかの一般的なオブジェクト (ボトル、カップ、ブロック) がテーブルの上に置かれます。 しかし実際には、カップは半透明で反射性があり、ペーパータオルで半分遮られている可能性があります。 家庭/工場環境におけるさまざまな気晴らし(散らかり、騒音、歩き回る人々)。 学習データにはこの「ロングテール状況」が欠けているため、環境が変わるとロボットは「愚か」になります。
4.66K