لماذا تبدو الروبوتات غبية؟ إلى جانب المسلسل التلفزيوني الخيالي الذي شاهدته مؤخرا ، "الوحوش ليست بهذه البساطة" ، وينطبق الشيء نفسه على "Steel to Human". أهم جزأين في الروبوت ، العقل والجسم. ببساطة ، غبائه هو أنه في مسألة كونه بديلا عن كونه شخصا ، فإن عقله أسوأ قليلا ، وجسده أسوأ قليلا. يتحدث هذا المقال أولا عن النصف الأول ، العقل 🧠 . كيف تصبح ذكيا يتطلب قدرا هائلا من التدريب على البيانات. تشمل نماذج اللغة للروبوتات كلا من VLM (نموذج لغة الرؤية) و LLM (نموذج لغة كبير). لماذا تحتاج الروبوتات إلى VLM؟ نظرا لأن نماذج اللغة ليس لها عيون ، فيمكنها فقط "الفهم" ولكن لا يمكنها رؤية العالم. على سبيل المثال ، إذا قلت ، "ساعدني في التقاط كوب الماء على الجانب الأيسر من الطاولة" ، يجب على الروبوت "رؤية" للتصرف. النماذج المرئية وحدها ليست كافية ، فهي تستطيع التعرف على الأشياء ولكنها لا تفهم اللغة والنوايا البشرية. VLM = اندماج الدماغ والعين → توحيد التعليمات البشرية (اللغة) + الإدراك البيئي (الرؤية) في خطط العمل. القيادة الذاتية التي اعتدنا عليها الآن هي في الواقع VLM. كل ما في الأمر أن القيادة الذاتية تحتاج إلى تعلم بيانات أقل بكثير. بعد كل شيء ، تقلد الروبوتات البشرية البشر ، وتنوع وتعقيد سيناريوهات تطبيقها هو البعد التالي. في تدريب VLM ، لا تزال هناك فجوة كبيرة بين كمية البيانات التي يتطلبها الروبوت والكمية الفعلية للبيانات. الطرق الرئيسية لتوليد هذه البيانات هي "التقاط الحركة" و "التشغيل عن بعد VR". طريقة جمع البيانات هذه باهظة الثمن + غير فعالة ، وكمية البيانات المساهمة بها ليست كافية. في الوقت نفسه ، غالبا ما تفتقر هذه البيانات من طرق الجمع الخاصة إلى "التعميم". غالبا ما يتم تدريب الروبوت في بيئة نظيفة وخاضعة للرقابة: يتم وضع بعض الأشياء الشائعة (الزجاجات والأكواب والكتل) على الطاولة. لكن في الواقع: قد يكون الكوب شفافا وعاكسا ونصفه مسدود بمنشفة ورقية. عوامل التشتيت المختلفة (الفوضى ، الضوضاء ، الأشخاص الذين يتجولون) في بيئة المنزل / المصنع. تفتقر بيانات التدريب إلى هذا "الوضع طويل الذيل" ، لذلك بمجرد أن تتغير البيئة ، يصبح الروبوت "غبيا".
‏‎4.65‏K