跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-0.38%
USELESS
-3.15%
IKUN
-2.21%
gib
-1.98%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-1.93%
ALON
+0.11%
LAUNCHCOIN
-2.15%
GOONC
-0.38%
KLED
+5.45%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.01%
Boopa
-0.63%
PORK
+2.15%
主頁
Tri Dao
助理教授@PrincetonCS,首席科學家@togethercompute。機器學習與系統。
查看原文
Tri Dao
12月19日 06:42
這就是我們在過去9個月所努力的目標:讓MoE訓練速度提高約2倍,並且內存需求減少約2倍!重點: - MoE通常在現代模型中佔用最多的時間和內存。事實上,可以數學上重寫MoE的反向傳播,以減少在前向傳播中需要存儲的激活內存約2倍,從而在不額外進行矩陣乘法重計算的情況下獲得相同的梯度。我非常喜歡這個結果,因為它結合了算法和系統的見解。 - 分析MoE層中的瓶頸導致了一種自然的優化策略:儘可能減少內存的讀取/寫入!收集前向傳播的輸入和反向傳播的輸出梯度有時會花費與分組GEMM一樣多的時間。我們將收集與分組GEMM融合,並重疊內存訪問和計算,使整個層的速度提高約2倍。 - 計算專家路由的top-k可能會花費意外的長時間,約佔整個MoE層的15-20%!標準的top-k實現使用基數top-k算法,對於大k來說效果很好,但對於小k則不夠優化。我們使用比托尼克top-k算法重寫了top-k,有時比pytorch的top-k快20-30倍! 所有主要內核都是用Cute-DSL編寫的,因此應該容易擴展(並安裝 :D)。Hopper內核已經發布,Blackwell內核也快準備好了。MoE模型的訓練硬件效率曾經低於2倍,希望Sonic-MOE能改變這一點。
Wentao Guo
12月19日 05:55
🚀SonicMoE🚀:一個針對NVIDIA Hopper GPU優化的超快速MoE實現。SonicMoE將激活記憶體減少了45%,在H100上比之前的SOTA快1.86倍😃 論文: 與@MayankMish98、@XinleC295、@istoica05、@tri_dao合作
977
Tri Dao
12月16日 07:21
Nvidia 繼續推出一些最強大和最快的開放模型。預訓練和後訓練數據也已發布,這是非常少數組織所做的事情。
Bryan Catanzaro
12月15日 22:04
今天,@NVIDIA 正在推出開放的 Nemotron 3 模型系列,首個是 Nano (30B-3A),它以新穎的混合 SSM 專家模型架構推進了準確性和推理效率的邊界。Super 和 Ultra 將在接下來的幾個月內推出。
61
熱門
排行
收藏