Mengapa robot terlihat bodoh? Dikombinasikan dengan serial TV fantasi yang saya tonton baru-baru ini, "Monster tidak sesederhana itu", dan hal yang sama berlaku untuk "Steel to Human". Dua bagian terpenting dari robot, pikiran dan tubuh. Sederhananya, kebodohannya adalah bahwa dalam hal menjadi pengganti menjadi seseorang, pikirannya sedikit lebih buruk, dan tubuhnya juga sedikit lebih buruk. Artikel ini pertama kali berbicara tentang paruh pertama, pikiran 🧠 . Cara menjadi pintar membutuhkan sejumlah besar pelatihan data. Model bahasa robot mencakup VLM (model bahasa penglihatan) dan LLM (model bahasa besar). Mengapa robot membutuhkan VLM? Karena model bahasa tidak memiliki mata, mereka hanya bisa "memahami" tetapi tidak dapat melihat dunia. Misalnya, jika Anda berkata, "Bantu saya mengambil gelas air di sisi kiri meja", robot harus "melihat" untuk bertindak. Model visual saja tidak cukup, mereka dapat mengenali objek tetapi tidak memahami bahasa dan niat manusia. VLM = Fusi Otak dan Mata Instruksi manusia (bahasa) + persepsi lingkungan (visi) → disatukan menjadi rencana aksi. Mengemudi otonom yang biasa kita gunakan sekarang sebenarnya adalah VLM. Hanya saja mengemudi otonom perlu mempelajari lebih sedikit data. Bagaimanapun, robot humanoid meniru manusia, dan keragaman serta kompleksitas skenario aplikasinya adalah dimensi berikutnya. Dalam pelatihan VLM, masih ada kesenjangan besar antara jumlah data yang dibutuhkan oleh robot dan jumlah data yang sebenarnya. Cara utama untuk menghasilkan data ini adalah "motion capture" dan "VR remote operation". Metode pengumpulan data ini sangat mahal + tidak efisien, dan jumlah data yang disumbangkan tidak cukup. Pada saat yang sama, data dari metode pengumpulan khusus ini seringkali tidak memiliki "generalisasi". Pelatihan robot sering dilakukan di lingkungan yang bersih dan terkendali: beberapa benda umum (botol, cangkir, balok) ditempatkan di atas meja. Tetapi pada kenyataannya: cangkir mungkin tembus cahaya, reflektif, dan setengah terhalang oleh handuk kertas. Berbagai gangguan (kekacauan, kebisingan, orang berjalan-jalan) di lingkungan rumah/pabrik. Data pelatihan tidak memiliki "situasi ekor panjang" ini, jadi begitu lingkungan berubah, robot menjadi "bodoh".
4,66K