Dlaczego roboty wydają się głupie? W połączeniu z ostatnio oglądanym fantastycznym serialem, "Przemiana w demona nie jest taka prosta", "Przemiana w stalowego człowieka" również nie jest taka. Najważniejsze dwie części robota to umysł i ciało. Mówiąc prosto, jego "głupota" polega na tym, że w zastępowaniu ludzi, jego umysł jest nieco gorszy, a ciało również nieco gorsze. W tym artykule najpierw omówimy górną część, czyli umysł 🧠. Jak umysł może stać się mądrzejszy? Potrzebuje ogromnej ilości danych do treningu. Model językowy robota ma zarówno VLM (model wizualno-językowy), jak i LLM (duży model językowy). Dlaczego robot potrzebuje VLM? Ponieważ model językowy nie ma oczu, może tylko "rozumieć" dźwięki, ale nie widzi świata. Na przykład, jeśli powiesz "pomóż mi podnieść kubek z lewej strony stołu", robot musi "widzieć", aby móc działać. Sam model wizualny również nie wystarczy, ponieważ model wizualny potrafi rozpoznać obiekty, ale nie rozumie ludzkiego języka i intencji. VLM = połączenie mózgu i oczu Ludzkie polecenia (język) + percepcja środowiska (wzrok) → zintegrowane przekształcenie w plan działania. To, do czego jesteśmy teraz przyzwyczajeni, czyli autonomiczne prowadzenie, w rzeczywistości również jest VLM. Tylko że dane, które muszą być przyswojone przez autonomiczne prowadzenie, są znacznie mniejsze. W końcu humanoidalne roboty naśladują ludzi, a ich różnorodność zastosowań i złożoność są na zupełnie innym poziomie. Jednak w treningu VLM, ilość danych potrzebnych dla robota a rzeczywista ilość danych wciąż ma ogromną różnicę. Obecnie głównym sposobem pozyskiwania tych danych są "przechwytywanie ruchu" i "zdalne operacje VR". Tego rodzaju zbieranie danych jest niezwykle kosztowne i mało efektywne, a ilość dostarczanych danych jest niewystarczająca. Jednocześnie dane pochodzące z tych specjalnych metod zbierania często brakuje "generalizacji". Trening robotów często odbywa się w czystym, kontrolowanym środowisku: na stole znajdują się kilka powszechnych obiektów (butelki, kubki, klocki). Ale w rzeczywistości: kubek może być półprzezroczysty, odbijający światło, lub zasłonięty w połowie przez chusteczkę. W domu/zakładzie przemysłowym występują różne zakłócenia (bałagan, hałas, ludzie przechodzący obok). Dane treningowe brakuje takich "długich ogonów", więc gdy tylko środowisko się zmienia, robot staje się "głupi".
4,65K