Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Directeur de la robotique de NVIDIA et scientifique émérite. Co-responsable du laboratoire GEAR. Résoudre l’IAG physique, un moteur à la fois. Stanford Ph.D. 1er stagiaire d’OpenAI.
2024 : L'IA est le copilote
2025+ : les humains sont le copilote
Le copilote est la nouvelle compétence en ingénierie. Il n'est pas facile de quitter le siège du conducteur - nous devons apprendre à penser à la manière de l'IA et nous adapter aux flux de travail étrangers. Aidez l'IA à nous aider.

Andrej Karpathy27 déc., 01:36
Je ne me suis jamais senti aussi en retard en tant que programmeur. La profession est en train d'être dramatiquement refondue alors que les contributions des programmeurs deviennent de plus en plus rares et éparses. J'ai le sentiment que je pourrais être 10 fois plus puissant si je parvenais simplement à bien assembler ce qui est devenu disponible au cours de l'année écoulée, et le fait de ne pas saisir cette opportunité ressemble clairement à un problème de compétence. Il y a une nouvelle couche d'abstraction programmable à maîtriser (en plus des couches habituelles en dessous) impliquant des agents, des sous-agents, leurs invites, contextes, mémoires, modes, permissions, outils, plugins, compétences, hooks, MCP, LSP, commandes slash, flux de travail, intégrations IDE, et un besoin de construire un modèle mental englobant pour les forces et les faiblesses d'entités fondamentalement stochastiques, faillibles, incompréhensibles et changeantes, soudainement mêlées à ce qui était autrefois le bon vieux génie. Clairement, un puissant outil extraterrestre a été distribué, sauf qu'il n'est accompagné d'aucun manuel et que tout le monde doit comprendre comment le tenir et l'utiliser, tandis que le tremblement de terre de magnitude 9 qui en résulte secoue la profession. Retroussez vos manches pour ne pas prendre de retard.
66
Je suis en mission singulière pour résoudre le Test de Turing Physique pour la robotique. C'est le prochain, ou peut-être LE dernier grand défi de l'IA. La super-intelligence dans les chaînes de texte remportera un prix Nobel avant que nous n'ayons l'intelligence des chimpanzés en agilité et dextérité. Le paradoxe de Moravec est une malédiction à briser, un mur à abattre. Rien ne peut se mettre entre l'humanité et une productivité physique exponentielle sur cette planète, et peut-être un jour sur des planètes au-delà.
Nous avons commencé un petit laboratoire chez NVIDIA et avons récemment atteint 30 personnes. L'équipe dépasse largement ses capacités. Notre empreinte de recherche couvre les modèles fondamentaux, les modèles du monde, le raisonnement incarné, la simulation, le contrôle corporel complet, et de nombreuses variantes de RL - en gros, l'ensemble de la pile d'apprentissage des robots.
Cette année, nous avons lancé :
- GR00T VLA (modèles fondamentaux vision-langage-action) : N1 open-source en mars, N1.5 en juin, et N1.6 ce mois-ci ;
- GR00T Dreams : modèle du monde vidéo pour l'échelle des données synthétiques ;
- SONIC : modèle fondamental de contrôle corporel humanoïde ;
- Post-formation RL pour les VLA et recettes RL pour sim2real.
Ces réalisations n'auraient pas été possibles sans les nombreuses équipes collaboratrices chez NVIDIA, un soutien fort de la direction, et des co-auteurs des laboratoires universitaires. Merci à tous de croire en la mission.
Fil sur la galerie des jalons :

507
L'Atari 2600 était autrefois le benchmark doré pour les agents d'IA pendant ma période de doctorat. Un seul réseau de neurones capable de jouer à plus de 50 jeux Atari serait considéré comme époustouflant. Les modèles avaient du mal à mapper un écran pixelisé en niveaux de gris de 84x84 à quelques boutons.
Puis OpenAI Five (Dota) et AlphaStar de DeepMind ont élevé le niveau, battant les meilleurs champions du monde en Esports. Pourtant, ils se surajustaient à un seul environnement virtuel à la fois. Changer quoi que ce soit briserait instantanément le modèle.
Les humains sont extraordinairement doués pour s'adapter à des physiques et des règles très différentes - quelque chose qui continue d'échapper à nos LLM les plus avancés, à l'échelle des trillions. Pensez aux 1000 jeux comme à 1000 simulations. Plus un agent peut s'adapter à des mondes virtuels, mieux il développe le raisonnement incarné, la perception et la coordination motrice. Tous des éléments critiques dans le grand puzzle de la robotique.
En open-sourçant le modèle NitroGen et l'API Gym, nous servons le même objectif qu'AlphaGo, AlphaStar, OpenAI Five, et récemment Google SIMA : ne pas enlever le plaisir de ces jeux, mais mettre en lumière les limitations de l'IA moderne, fournir une base solide et créer un nouveau benchmark - "Atari 2.0" - pour mesurer les progrès en conséquence.

Jim Fan20 déc., 01:15
Présentation de NitroGen, un modèle de fondation open-source entraîné pour jouer à plus de 1000 jeux : RPG, plateforme, battle royale, course, 2D, 3D, vous l'appelez ! Nous sommes en quête d'agents incarnés à usage général qui maîtrisent non seulement la physique du monde réel, mais aussi toutes les physiques possibles à travers un multivers de simulations.
Nous avons découvert que notre architecture GR00T N1.5, initialement conçue pour la robotique, peut être facilement adaptée pour jouer à de nombreux jeux avec des mécaniques très différentes. Notre recette est simple et tirée d'une leçon amère : (1) un ensemble de données de haute qualité de plus de 40K heures de gameplay public dans la nature ; (2) un modèle de fondation très capable pour le contrôle moteur continu ; (3) une API Gym qui enveloppe n'importe quel binaire de jeu pour exécuter des rollouts.
Notre curation de données est très amusante : il s'avère que les joueurs adorent montrer leurs compétences en superposant le contrôle de la manette en temps réel sur un flux vidéo. Nous entraînons donc un modèle de segmentation pour détecter et extraire ces affichages de manette et les transformer en actions d'expert. Nous masquons ensuite cette région pour empêcher le modèle d'exploiter un raccourci. Pendant l'entraînement, une variante de GR00T N1.5 apprend à mapper 40K heures de pixels à des actions à travers des transformateurs de diffusion.
NitroGen n'est que le début, et il reste encore un long chemin à parcourir pour grimper en capacité. Nous nous concentrons intentionnellement uniquement sur le côté Système 1 : l'"instinct de joueur" du contrôle moteur rapide. Nous open-source *tout* pour que vous puissiez expérimenter : poids de modèle pré-entraînés, l'ensemble de données d'actions complet, code, et un livre blanc avec des détails solides.
Aujourd'hui, la robotique est un sur-ensemble de problèmes d'IA difficiles.
Demain, cela pourrait devenir un sous-ensemble, un point dans l'espace latent beaucoup plus vaste de l'AGI incarnée.
Alors vous n'avez qu'à demander et "demander" un contrôleur de robot.
Cela pourrait être le jeu final (jeu de mots intentionnel).
NitroGen est co-dirigé par nos esprits brillants : Loic Magne, Anas Awadalla, Guanzhi Wang. C'est une collaboration multi-institutionnelle. Consultez le fil technique approfondi de Guanzhi et les liens du dépôt ci-dessous !
581
Meilleurs
Classement
Favoris