Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Warum sehen Roboter so dumm aus? In Verbindung mit der letzten Fantasy-Serie, die ich gesehen habe, "Es ist nicht so einfach, ein Monster zu werden", "Es ist auch nicht so einfach, ein Mensch aus Stahl zu werden".
Die zwei wichtigsten Teile eines Roboters sind der Verstand und der Körper. Einfach gesagt, seine Dummheit liegt darin, dass er beim Ersetzen des Menschen in dieser Angelegenheit etwas hinterherhinkt, sowohl im Verstand als auch im Körper. Dieser Artikel behandelt zunächst den ersten Teil, den Verstand 🧠.
Wie wird der Verstand schlauer? Er benötigt eine riesige Menge an Daten für das Training. Das Sprachmodell des Roboters umfasst sowohl VLM (Visuelles Sprachmodell) als auch LLM (Großes Sprachmodell).
Warum benötigt der Roboter VLM? Weil das Sprachmodell keine Augen hat, es kann nur "verstehen", aber die Welt nicht sehen. Wenn du zum Beispiel sagst: "Hilf mir, den Wasserbecher links auf dem Tisch zu nehmen", muss der Roboter "sehen", um handeln zu können. Allein mit dem visuellen Modell reicht das nicht aus, das visuelle Modell kann Objekte erkennen, versteht aber nicht die menschliche Sprache und Absichten.
VLM = Verschmelzung von Gehirn und Augen
Menschliche Anweisungen (Sprache) + Umweltwahrnehmung (Visuell) → Einheitliche Umwandlung in einen Aktionsplan.
Das, was wir jetzt als autonomes Fahren gewohnt sind, ist tatsächlich auch VLM. Nur benötigt das autonome Fahren viel weniger Daten zum Lernen. Schließlich ahmt der humanoide Roboter den Menschen nach, seine Anwendungsvielfalt und Komplexität sind eine Dimension höher.
Bei der VLM-Trainingsdatenmenge gibt es jedoch immer noch eine enorme Diskrepanz zwischen der benötigten Datenmenge und der tatsächlichen Datenmenge. Derzeit erfolgt die Erzeugung dieser Daten hauptsächlich durch "Bewegungserfassung" und "VR-Fernsteuerung". Diese Datenerfassungsmethoden sind extrem kostspielig und ineffizient, und die Menge der beigetragenen Daten reicht nicht aus.
Gleichzeitig fehlt diesen Daten, die aus speziellen Erfassungsmethoden stammen, oft die "Generalisierbarkeit". Das Training von Robotern findet oft in sauberen, kontrollierbaren Umgebungen statt: Auf dem Tisch liegen einige gängige Objekte (Flaschen, Becher, Bauklötze). Aber in der Realität: Der Becher könnte halbtransparent, reflektierend oder zur Hälfte von einem Papiertuch verdeckt sein. Zu Hause/Fabrikumgebungen gibt es verschiedene Störungen (Gegenstände, Lärm, Menschen, die umhergehen). Die Trainingsdaten fehlen solche "Long-Tail-Situationen", weshalb der Roboter, sobald sich die Umgebung ändert, "dumm" wird.
4,64K
Top
Ranking
Favoriten