跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+8.18%
USELESS
+0.66%
IKUN
+7.1%
gib
+4.73%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.28%
ALON
+15.49%
LAUNCHCOIN
-11.42%
GOONC
-5.37%
KLED
+13.73%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-14.09%
Boopa
-4.93%
PORK
+1.49%
主頁
Julian Schrittwieser
Anthropic AlphaGo、AlphaZero、MuZero、AlphaCode、AlphaTensor、AlphaProof 技術人員Gemini RL 上一篇 DeepMind 首席研究工程師
查看原文
Julian Schrittwieser
11月13日 00:18
非常興奮我們的 AlphaProof 論文終於發布了! 這是我在 DeepMind 工作的最後一個項目,能夠分享完整的細節讓我感到非常滿足——這是一個非常有趣的項目和出色的團隊!
92.16K
1.01K
Julian Schrittwieser
2025年10月26日
這週我和MAD播客的@mattturck聊天非常有趣!我們討論了AI、強化學習的趨勢,以及為什麼它能解鎖代理、擴展等等: 我們談論的內容和進一步閱讀的連結:
Matt Turck
2025年10月24日
再次未能理解指數增長? 我與 @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) 的對話,討論了第37步、擴展強化學習、AI的諾貝爾獎以及AI的前沿: 00:00 - 冷開場:“我們沒有看到任何放緩。” 00:32 - 介紹 — 認識Julian 01:09 - 前沿實驗室內的“指數” 04:46 - 2026–2027:全天工作的代理;專家級的廣度 08:58 - 基準與現實:長期工作、GDP-Val、用戶價值 10:26 - 第37步 — 實際發生了什麼以及為什麼重要 13:55 - 新穎的科學:AlphaCode/AlphaTensor → AI何時能獲得諾貝爾獎? 16:25 - 不連續性與平滑進展(及警告信號) 19:08 - 預訓練 + RL 是否能讓我們達到目標?(AGI辯論不談) 20:55 - Sutton的“從零開始的RL”?Julian的看法 23:03 - Julian的路徑:Google → DeepMind → Anthropic 26:45 - AlphaGo(學習 + 搜索)用簡單的英語解釋 30:16 - AlphaGo Zero(無人類數據) 31:00 - AlphaZero(單一算法:圍棋、國際象棋、將棋) 31:46 - MuZero(使用學習的世界模型進行規劃) 33:23 - 當今代理的教訓:大規模搜索 + 學習 34:57 - LLM是否已經擁有隱含的世界模型? 39:02 - 為什麼在LLM上進行RL需要時間(穩定性、反饋循環) 41:43 - RL的計算與擴展 — 我們目前看到的 42:35 - 獎勵前沿:人類偏好、標準、RLVR、過程獎勵 44:36 - RL訓練數據與“飛輪”(以及為什麼質量很重要) 48:02 - RL與代理101 — 為什麼RL解鎖了穩健性 50:51 - 建設者應該使用RL作為服務嗎?還是僅僅使用工具 + 提示? 52:18 - 可靠代理所缺失的(能力與工程) 53:51 - 評估與Goodhart — 內部與外部基準 57:35 - 機械解釋性與“金門克勞德” 1:00:03 - Anthropic的安全性與對齊 — 如何在實踐中體現 1:03:48 - 工作:人類–AI的互補性(比較優勢) 1:06:33 - 不平等、政策,以及10倍生產力的理由 → 豐裕 1:09:24 - 結語
43.1K
189
Julian Schrittwieser
2025年9月28日
作為一名前沿實驗室的研究員,我經常對公共討論對當前 AI 進展的無知感到驚訝。 我寫了一篇文章來總結最近進展的研究,以及我們在接下來的 1-2 年中應該期待什麼:
1.95M
5.85K
熱門
排行
收藏