Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIA-Direktor für Robotik und angesehener Wissenschaftler. Co-Leiter des GEAR-Labors. Physikalische AGI lösen, ein Motor nach dem anderen. Stanford Ph.D. Der 1. Praktikant von OpenAI.
Ich bin auf einer einzigartigen Mission, den physischen Turing-Test für Robotik zu lösen. Es ist die nächste, oder vielleicht DIE letzte große Herausforderung der KI. Superintelligenz in Textstrings wird einen Nobelpreis gewinnen, bevor wir Schimpansenintelligenz in Agilität und Geschicklichkeit haben. Moravecs Paradoxon ist ein Fluch, der gebrochen werden muss, eine Mauer, die eingerissen werden muss. Nichts kann zwischen der Menschheit und exponentieller physischer Produktivität auf diesem Planeten stehen, und vielleicht eines Tages auf Planeten darüber hinaus.
Wir haben ein kleines Labor bei NVIDIA gegründet und sind kürzlich auf 30 starke Mitglieder gewachsen. Das Team leistet weit mehr, als man erwarten würde. Unser Forschungsschwerpunkt umfasst Fundamentalmuster, Weltmodelle, verkörpertes Denken, Simulation, Ganzkörperkontrolle und viele Varianten von RL - im Grunde den gesamten Stack des Robotiklernens.
In diesem Jahr haben wir gestartet:
- GR00T VLA (Vision-Language-Action) Fundamentalmuster: Open-Source N1 im März, N1.5 im Juni und N1.6 in diesem Monat;
- GR00T Dreams: Video-Weltmodell zur Skalierung synthetischer Daten;
- SONIC: humanoides Ganzkörperkontroll-Fundamentalmuster;
- RL-Nachtraining für VLAs und RL-Rezepte für sim2real.
Diese wären ohne die zahlreichen kooperierenden Teams bei NVIDIA, starke Unterstützung der Führung und Co-Autoren aus Universitätslaboren nicht möglich gewesen. Vielen Dank an alle, die an die Mission glauben.
Thread zur Galerie der Meilensteine:

245
Der Atari 2600 war während meiner Doktorandenzeit der goldene Maßstab für KI-Agenten. Ein einzelnes neuronales Netzwerk, das in der Lage ist, über 50 Atari-Spiele zu spielen, würde als bahnbrechend angesehen werden. Die Modelle hatten Schwierigkeiten, den 84x84 Graustufen-Pixelbildschirm auf einige Tasten abzubilden.
Dann haben OpenAI Five (Dota) und DeepMinds AlphaStar das Spiel auf ein neues Level gehoben und die besten Champions der Welt im Esport besiegt. Doch sie waren auf eine einzige virtuelle Umgebung gleichzeitig überangepasst. Jede Veränderung würde das Modell sofort zum Scheitern bringen.
Menschen sind außergewöhnlich gut darin, sich an sehr unterschiedliche Physik und Regeln anzupassen - etwas, das unseren fortschrittlichsten LLMs im Billionenmaßstab weiterhin entgeht. Man kann sich die 1000 Spiele als 1000 Simulationen vorstellen. Je mehr virtuelle Welten ein Agent adaptieren kann, desto besser entwickelt er verkörpertes Denken, Wahrnehmung und motorische Koordination. All dies sind entscheidende Teile im großen Puzzle der Robotik.
Durch die Open-Source-Veröffentlichung des NitroGen-Modells und der Gym-API verfolgen wir dasselbe Ziel wie AlphaGo, AlphaStar, OpenAI Five und kürzlich Google SIMA: nicht den Spaß an diesen Spielen zu nehmen, sondern die Grenzen der modernen KI aufzuzeigen, eine solide Basis zu bieten und einen neuen Maßstab - "Atari 2.0" - zu schaffen, um den Fortschritt entsprechend zu messen.

Jim Fan20. Dez., 01:15
Wir stellen NitroGen vor, ein Open-Source-Grundlagenmodell, das darauf trainiert ist, über 1000 Spiele zu spielen: RPG, Plattformspiel, Battle Royale, Rennspiel, 2D, 3D, was auch immer! Wir sind auf einer Mission, allgemeine verkörperte Agenten zu entwickeln, die nicht nur die physikalischen Gesetze der realen Welt meistern, sondern auch alle möglichen Physiken in einem Multiversum von Simulationen.
Wir haben festgestellt, dass unsere GR00T N1.5-Architektur, die ursprünglich für Robotik entwickelt wurde, leicht angepasst werden kann, um viele Spiele mit völlig unterschiedlichen Mechaniken zu spielen. Unser Rezept ist einfach und bitter lehrreich: (1) ein über 40.000 Stunden umfassender, hochwertiger Datensatz von öffentlichen Gameplay-Aufnahmen; (2) ein hochleistungsfähiges Grundlagenmodell für kontinuierliche Motorsteuerung; (3) eine Gym-API, die jede Spiel-Binärdatei umschließt, um Rollouts auszuführen.
Unsere Datenkuratierung macht viel Spaß: Es stellt sich heraus, dass Gamer gerne ihre Fähigkeiten zeigen, indem sie die Echtzeit-Spielsteuerung auf einen Video-Stream überlagern. Daher trainieren wir ein Segmentierungsmodell, um diese Gamepad-Anzeigen zu erkennen und in Expertenaktionen umzuwandeln. Wir maskieren dann diesen Bereich, um zu verhindern, dass das Modell eine Abkürzung ausnutzt. Während des Trainings lernt eine Variante von GR00T N1.5, von 40.000 Stunden Pixeln zu Aktionen durch Diffusions-Transformatoren zuzuordnen.
NitroGen ist erst der Anfang, und es gibt einen langen Weg, um die Fähigkeiten zu steigern. Wir konzentrieren uns absichtlich nur auf die System-1-Seite: den "Gamer-Instinkt" der schnellen Motorsteuerung. Wir stellen *alles* als Open Source zur Verfügung, damit Sie experimentieren können: vortrainierte Modellgewichte, den gesamten Aktionsdatensatz, Code und ein Whitepaper mit soliden Details.
Heute ist Robotik eine Obermenge harter KI-Probleme.
Morgen könnte es eine Teilmenge werden, ein Punkt im viel größeren latenten Raum der verkörperten AGI.
Dann fordern Sie einfach einen Roboter-Controller an.
Das könnte das Endspiel sein (Wortspiel beabsichtigt).
NitroGen wird von unseren brillanten Köpfen geleitet: Loic Magne, Anas Awadalla, Guanzhi Wang. Es ist eine multi-institutionelle Zusammenarbeit. Schauen Sie sich Guanzhis technischen Deep-Dive-Thread und die Repo-Links unten an!
539
Wir stellen NitroGen vor, ein Open-Source-Grundlagenmodell, das darauf trainiert ist, über 1000 Spiele zu spielen: RPG, Plattformspiel, Battle Royale, Rennspiel, 2D, 3D, was auch immer! Wir sind auf einer Mission, allgemeine verkörperte Agenten zu entwickeln, die nicht nur die physikalischen Gesetze der realen Welt meistern, sondern auch alle möglichen Physiken in einem Multiversum von Simulationen.
Wir haben festgestellt, dass unsere GR00T N1.5-Architektur, die ursprünglich für Robotik entwickelt wurde, leicht angepasst werden kann, um viele Spiele mit völlig unterschiedlichen Mechaniken zu spielen. Unser Rezept ist einfach und bitter lehrreich: (1) ein über 40.000 Stunden umfassender, hochwertiger Datensatz von öffentlichen Gameplay-Aufnahmen; (2) ein hochleistungsfähiges Grundlagenmodell für kontinuierliche Motorsteuerung; (3) eine Gym-API, die jede Spiel-Binärdatei umschließt, um Rollouts auszuführen.
Unsere Datenkuratierung macht viel Spaß: Es stellt sich heraus, dass Gamer gerne ihre Fähigkeiten zeigen, indem sie die Echtzeit-Spielsteuerung auf einen Video-Stream überlagern. Daher trainieren wir ein Segmentierungsmodell, um diese Gamepad-Anzeigen zu erkennen und in Expertenaktionen umzuwandeln. Wir maskieren dann diesen Bereich, um zu verhindern, dass das Modell eine Abkürzung ausnutzt. Während des Trainings lernt eine Variante von GR00T N1.5, von 40.000 Stunden Pixeln zu Aktionen durch Diffusions-Transformatoren zuzuordnen.
NitroGen ist erst der Anfang, und es gibt einen langen Weg, um die Fähigkeiten zu steigern. Wir konzentrieren uns absichtlich nur auf die System-1-Seite: den "Gamer-Instinkt" der schnellen Motorsteuerung. Wir stellen *alles* als Open Source zur Verfügung, damit Sie experimentieren können: vortrainierte Modellgewichte, den gesamten Aktionsdatensatz, Code und ein Whitepaper mit soliden Details.
Heute ist Robotik eine Obermenge harter KI-Probleme.
Morgen könnte es eine Teilmenge werden, ein Punkt im viel größeren latenten Raum der verkörperten AGI.
Dann fordern Sie einfach einen Roboter-Controller an.
Das könnte das Endspiel sein (Wortspiel beabsichtigt).
NitroGen wird von unseren brillanten Köpfen geleitet: Loic Magne, Anas Awadalla, Guanzhi Wang. Es ist eine multi-institutionelle Zusammenarbeit. Schauen Sie sich Guanzhis technischen Deep-Dive-Thread und die Repo-Links unten an!
488
Top
Ranking
Favoriten