热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Atari 2600 曾是我博士期间 AI 代理的黄金基准。一个能够玩 50 多款 Atari 游戏的单一神经网络将被视为令人震惊。模型在将 84x84 的灰度像素化屏幕映射到几个按钮时遇到了困难。
然后 OpenAI Five(Dota)和 DeepMind 的 AlphaStar 提升了游戏水平,击败了世界顶级电子竞技冠军。然而,它们在一次只能适应一个虚拟环境上过拟合。改变任何东西都会立即破坏模型。
人类在适应截然不同的物理和规则方面表现得极其出色——这是我们最先进的万亿规模 LLM 仍然无法做到的。把 1000 款游戏看作 1000 个模拟。一个代理能够适应的虚拟世界越多,它在具身推理、感知和运动协调方面的发展就越好。这些都是机器人技术大拼图中的关键部分。
通过开源 NitroGen 模型和 Gym API,我们的目标与 AlphaGo、AlphaStar、OpenAI Five 以及最近的 Google SIMA 一致:不是要剥夺这些游戏的乐趣,而是突出现代 AI 的局限性,提供一个坚实的基线,并创建一个新的基准——“Atari 2.0”——以相应地衡量进展。
热门
排行
收藏
