Google DeepMind memperkenalkan Gemini Robotics 1.5, memungkinkan robot untuk memahami, merencanakan, berpikir, menggunakan alat, dan bertindak pada tugas-tugas yang kompleks. Kerangka kerja agen terdiri dari: ⦿ Gemini Robotics-ER 1.5 (VLM): Mengorkestrasi penalaran dan perencanaan yang diwujudkan tingkat tinggi. ⦿ Gemini Robotics 1.5 (VLA): Mengubah visual dan instruksi yang diberikan oleh ER 1.5 menjadi tindakan.
Model VLA "berpikir sebelum bertindak" menggunakan monolog bahasa alami multi-level. Ini memecah tugas-tugas seperti "mengurutkan cucian berdasarkan warna" menjadi langkah-langkah (misalnya, mengidentifikasi warna, memilih item, gerakan detail), meningkatkan transparansi, kekokohan, dan kemampuan beradaptasi dengan skenario baru.
Gemini Robotics 1.5 belajar dari beragam kumpulan data di seluruh perwujudan (ALOHA, bi-arm Franka, Apollo humanoid), memungkinkan transfer keterampilan tanpa tembakan tanpa spesialisasi. Misalnya, tugas yang dilatih pada satu robot bekerja pada robot lain, mengatasi kelangkaan data dan meningkatkan efisiensi.
Gemini Robotics-ER 1.5 menetapkan tolok ukur baru dalam penalaran yang terkandung, unggul dalam tugas-tugas spasial, temporal, dan semantik seperti menunjuk, estimasi kemajuan, dan perencanaan tugas. Ini memberikan penalaran terwujud tingkat tinggi, menggeneralisasi ke dunia objek dan pemandangan yang terbuka.
16,38K