分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Google DeepMind は Gemini Robotics 1.5 を導入し、ロボットが複雑なタスクを認識、計画、思考、ツールを使用し、行動できるようにします。エージェントのフレームワークは、次のもので構成されます。 ⦿ Gemini Robotics-ER 1.5 (VLM): 高レベルの具体化された推論と計画を調整します。 ⦿ Gemini Robotics 1.5 (VLA): ER 1.5 によって提供されるビジュアルと指示をアクションに変換します。

VLAモデルは、マルチレベルの自然言語モノローグを使用して「行動する前に考える」。「洗濯物を色で分類する」などのタスクをステップ (色の識別、アイテムのピッキング、動作の詳細など) に分割し、透明性、堅牢性、新しいシナリオへの適応性を向上させます。

Gemini Robotics 1.5は、実施形態(ALOHA、バイアームフランカ、アポロヒューマノイド)にわたる多様なデータセットから学習し、専門化なしでゼロショットのスキル伝達を可能にします。たとえば、あるロボットでトレーニングされたタスクが他のロボットでも機能し、データ不足に対処し、効率を高めます。

Gemini Robotics-ER 1.5 は、ポインティング、進捗推定、タスク計画などの空間的、時間的、意味的タスクに優れ、身体化推論の新たなベンチマークを設定します。これは、オブジェクトとシーンのオープンワールドに一般化する、高レベルの具体化された推論を提供します。

16.38K

トップ

ランキング

お気に入り