Heute präsentieren wir einen Schrittwechsel in der robotischen KI @sundayrobotics. Einführung von ACT-1: Ein Grundlagenmodell für Roboter, das auf null Roboterdaten trainiert wurde. - Ultra-langfristige Aufgaben - Zero-Shot-Generalisation - Fortschrittliche Geschicklichkeit 🧵->
Anstelle von Teleoperation trainieren wir ausschließlich mit Daten von unserem Skill Capture Glove. Der Handschuh ist gemeinsam mit der Hand von Memo entworfen, was bedeutet, dass sie die exakt gleiche Geometrie und Sensorausstattung teilen. Wenn du es mit dem Handschuh machen kannst, kann Memo es lernen.
Der Skill Capture Glove bietet uns eine um zwei Größenordnungen höhere Kapitaleffizienz im Vergleich zur Teleoperation (200 $ vs. 20.000 $) Er ermöglicht es uns auch, Vielfalt schneller zu skalieren. Sie können Daten überall sammeln, ohne Roboter bewegen zu müssen.
Der Skill Capture Glove richtet die Hände aus, aber was ist mit dem Rest des Körpers? Menschliche Sammler variieren in Größe und Armlänge und sehen auch visuell unterschiedlich aus. Wir haben Skill Transform entwickelt, eine Methode, die Daten des Handschuhs in äquivalente Roboterdaten mit einer Erfolgsquote von über 90 % umwandelt.
Es hat über ein Jahr gedauert, die Kerninfrastruktur zu entwickeln. Danach haben wir die letzten 3 Monate damit verbracht, all die oben genannten autonomen Ergebnisse zu produzieren. Unten hebe ich einige meiner Lieblingsaspekte dieses Releases hervor.
Die Aufgabe, den Tisch in die Geschirrspülmaschine zu räumen, ist das klassische Albtraumszenario für Robotiker: Langfristige, hochgradig geschickte, präzise, ganzheitliche Manipulation kombiniert mit zarten, transparenten, reflektierenden und verformbaren Objekten. Doch Memo meistert das so natürlich und elegant.
Insbesondere ist das Laden des Weinglases die delikateste Unteraufgabe: Zu viel Druck ausüben? Zerspringen. Den falschen Stift einsetzen? Zerspringen. Wir haben während der Entwicklung viele zerbrochen, aber in über 20 Live-Demonstrationssitzungen null.
Eine weniger bekannte Tatsache über datenerfassende Handschuhe: Sie erzeugen qualitativ hochwertigere Daten als Teleoperation bei kontaktintensiven Aufgaben. Remote-Teleoperation kann kein gutes Kraftfeedback bieten, aber Handschuhe tun dies auf natürliche Weise, was Aufgaben wie das Falten von Socken, die auf Gefühl angewiesen sind, viel einfacher macht.
Es macht noch mehr Spaß zu sehen, wie Memo auf unbekannte Umgebungen reagiert. Wir setzen es in 6 unbekannten Airbnbs ein und beauftragen den Roboter mit feinen Aufgaben wie dem Aufheben von Utensilien vom Teller. Da wir mit Daten aus über 500 Haushalten trainieren, ist das neue Zuhause für Memo sofort vertraut.
13,12K