跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+8.18%
USELESS
+0.66%
IKUN
+7.1%
gib
+4.73%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.28%
ALON
+15.49%
LAUNCHCOIN
-11.42%
GOONC
-5.37%
KLED
+13.73%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-14.09%
Boopa
-4.93%
PORK
+1.49%
主页
Julian Schrittwieser
Anthropic AlphaGo、AlphaZero、MuZero、AlphaCode、AlphaTensor、AlphaProof 技术人员Gemini RL 上一篇 DeepMind 首席研究工程师
查看原文
Julian Schrittwieser
11月13日 00:18
非常兴奋我们的 AlphaProof 论文终于发布了! 这是我在 DeepMind 工作的最后一件事,现在能够分享完整的细节,感觉非常满足——这是一个非常有趣的项目和出色的团队!
92.16K
1.01K
Julian Schrittwieser
2025年10月26日
这周我和MAD播客的@mattturck聊天非常有趣!我们讨论了AI、RL的趋势,以及它为什么能解锁代理、扩展等更多内容: 我们讨论的内容和进一步阅读的链接:
Matt Turck
2025年10月24日
再次未能理解指数增长? 我与@Mononofu - Julian Schrittwieser(@AnthropicAI,AlphaGo Zero,MuZero)的对话 - 关于第37步、扩展强化学习、人工智能诺贝尔奖以及人工智能前沿: 00:00 - 冷开场:“我们没有看到任何放缓。” 00:32 - 介绍 — 认识Julian 01:09 - 前沿实验室内部的“指数” 04:46 - 2026–2027:全天工作的代理;专家级广度 08:58 - 基准与现实:长期工作,GDP-Val,用户价值 10:26 - 第37步 — 实际发生了什么以及为什么重要 13:55 - 新颖的科学:AlphaCode/AlphaTensor → 人工智能何时能获得诺贝尔奖? 16:25 - 不连续性与平滑进展(及警告信号) 19:08 - 预训练 + 强化学习能否让我们到达那里?(AGI辩论不谈) 20:55 - Sutton的“从零开始的强化学习”?Julian的看法 23:03 - Julian的路径:谷歌 → DeepMind → Anthropic 26:45 - AlphaGo(学习 + 搜索)用简单英语解释 30:16 - AlphaGo Zero(没有人类数据) 31:00 - AlphaZero(一个算法:围棋、国际象棋、将棋) 31:46 - MuZero(使用学习的世界模型进行规划) 33:23 - 对今天代理的教训:大规模搜索 + 学习 34:57 - LLM是否已经拥有隐含的世界模型? 39:02 - 为什么在LLM上进行强化学习花了时间(稳定性,反馈循环) 41:43 - 强化学习的计算与扩展 — 我们迄今所见 42:35 - 奖励前沿:人类偏好、评分标准、RLVR、过程奖励 44:36 - 强化学习训练数据与“飞轮”(以及质量为何重要) 48:02 - 强化学习与代理101 — 为什么强化学习解锁了鲁棒性 50:51 - 建设者应该使用强化学习即服务吗?还是仅仅使用工具 + 提示? 52:18 - 可靠代理缺失的是什么(能力与工程) 53:51 - 评估与Goodhart — 内部与外部基准 57:35 - 机械解释性与“金门克劳德” 1:00:03 - Anthropic的安全与对齐 — 如何在实践中体现 1:03:48 - 工作:人类与人工智能的互补性(比较优势) 1:06:33 - 不平等、政策,以及10倍生产力的案例 → 丰富 1:09:24 - 结束思考
43.1K
189
Julian Schrittwieser
2025年9月28日
作为前沿实验室的研究人员,我常常对公众讨论对当前AI进展的无知感到惊讶。 我写了一篇文章,总结了最近进展的研究,以及我们在接下来的1-2年中应该期待什么:
1.95M
5.85K
热门
排行
收藏