跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+11.05%
USELESS
-4.19%
IKUN
+0.64%
gib
-3.93%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+0.1%
ALON
-2.51%
LAUNCHCOIN
+1.65%
GOONC
-2.3%
KLED
+7.08%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+2.5%
Boopa
+1.07%
PORK
0.00%
主页
Khurram Javed
开发高效的机器人强化学习算法。Keen公司的研究科学家,Keen是一家由约翰·卡马克领导的初创公司。 上一页 ~ 理查德·萨顿博士
查看原文
Khurram Javed
1月7日 00:08
对我们物理Atari工作的很好的后续。 只在快速和简单的模拟环境中使用强化学习的人,往往低估了现实世界的复杂性;他们最终会制定在复杂环境中无法实现的研究目标(例如,零样本泛化、学习因果模型)。 物理Atari仍然是一个极其简单的环境,但它足以突出为快速模拟学习而开发的方法的局限性。 人类和动物在比物理Atari复杂得多的环境中学习。如果我们想要丰富的智能,开发能够做到这一点的算法应该是目标。
Adam Patni
1月5日 01:20
我和@PraneetKedari教了一台机器人玩《Ms. Pacman》 我们的学习和收获如下(完整报告/代码在最后)👇 p.s. 开声音!
8
Khurram Javed
2025年11月26日
我对伊利亚感到惊喜。他识别出了一些在流行的AI话语中基本缺失的智能关键方面。这些是: 1. 智能是学习的能力,而不是知道很多事情。正确的目标是一个能够从部署经验中学习的系统。 2. 需要一个价值函数来实现类人样本高效学习。它可以在没有奖励的情况下提供密集反馈(时间差学习)。 这两者都是必不可少且可行的。一个关键瓶颈是我们没有能够在与推理相似的计算量下可靠学习的算法。如果我们要持续学习,就需要这样的算法。我认为我们已经接近了。我们只是不够多的人在寻找这些算法。 我也很高兴伊利亚承认,要取得进展,我们需要更多的想法,而不仅仅是更多的计算。我预测,关键的算法改进可以在相对较少的计算量下实现。 每人一小堆具有许多CUDA核心的GPU(5090或更好),或者每人一两颗最先进的多核CPU(9995 WX或更好),就足以找到正确的算法。 大规模演示只对说服世界其他人你找到了正确的学习配方很重要。 *张量核心不够灵活,无法快速尝试新想法。
Dwarkesh Patel
2025年11月26日
@ilyasut 这一集 0:00:00 – 解释模型的锯齿性 0:09:39 - 情感与价值函数 0:18:49 – 我们在扩展什么? 0:25:13 – 为什么人类的概括能力优于模型 0:35:45 – 直击超级智能 0:46:47 – SSI 的模型将从部署中学习 0:55:07 – 对齐 1:18:13 – “我们正处于一个研究公司的时代” 1:29:23 – 自我对弈与多智能体 1:32:42 – 研究品味 在 YouTube、Apple Podcasts 或 Spotify 上查找 Dwarkesh Podcast。享受吧!
609
热门
排行
收藏