跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+26.53%
USELESS
+13.68%
IKUN
+13.79%
gib
+20.37%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+14.66%
ALON
+1.93%
LAUNCHCOIN
+3.75%
GOONC
+3.28%
KLED
+4.89%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.05%
Boopa
+3.59%
PORK
-1.7%
主頁
Khurram Javed
開發有效的機器人強化學習演算法。Keen(由John Carmack領導的新創公司)擔任研究科學家。 上一篇 ~ 與理查德·薩頓博士
查看原文
Khurram Javed
1月7日 00:08
對我們的實體 Atari 工作的很棒的後續。 只使用快速且簡單的模擬環境進行強化學習的人,往往低估了現實世界的複雜性;他們最終會制定出在複雜環境中無法實現的研究目標(例如,零樣本泛化、學習因果模型)。 實體 Atari 仍然是一個極其簡單的環境,但它足以突顯出為快速模擬學習而開發的方法的局限性。 人類和動物在比實體 Atari 複雜得多的環境中學習。如果我們想要豐富的智慧,開發能做到這一點的算法應該是目標。
Adam Patni
1月5日 01:20
. @PraneetKedari 和我教了一個機器人玩 Ms. Pacman 我們的學習和收穫如下(完整報告/代碼在最後)👇 p.s. 開聲音!
67
Khurram Javed
2025年11月26日
我對伊利亞感到驚喜。他已經識別出一些在流行的AI話語中幾乎缺失的智慧關鍵方面。這些是: 1. 智慧是學習的能力,而不是知道很多事情。正確的目標是一個能夠從實際經驗中學習的系統。 2. 需要一個價值函數來實現類人樣本高效學習。它可以在沒有獎勵的情況下提供密集的反饋(TD學習)。 這兩者都是必不可少且可行的。一個關鍵瓶頸是我們沒有能夠在與推理相似的計算量下可靠學習的算法。如果我們要持續學習,就需要這樣的算法。我認為我們已經接近了。我們只是不夠多的人在尋找這些算法。 我也很高興伊利亞承認,要取得進展,我們需要更多的想法,而不僅僅是更多的計算能力。我預測,關鍵的算法改進可以在相對較少的計算量下實現。 每個人擁有幾個擁有許多CUDA核心的GPU(5090或更好),或每人擁有幾個最先進的多核CPU(9995 WX或更好),就足以找到正確的算法。 大規模的演示僅僅是為了說服世界其他人你已經找到了正確的學習配方。 *Tensor Cores不夠靈活,無法快速嘗試新想法。
Dwarkesh Patel
2025年11月26日
@ilyasut 的集數 0:00:00 – 解釋模型的鋸齒性 0:09:39 - 情感與價值函數 0:18:49 – 我們在擴展什麼? 0:25:13 – 為什麼人類的概括能力比模型更好 0:35:45 – 直擊超智能 0:46:47 – SSI 的模型將從部署中學習 0:55:07 – 對齊 1:18:13 – “我們正處於一個研究公司的時代” 1:29:23 – 自我對弈與多代理 1:32:42 – 研究品味 在 YouTube、Apple Podcasts 或 Spotify 上查找 Dwarkesh Podcast。享受!
667
熱門
排行
收藏