跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+0.21%
USELESS
-1.28%
IKUN
+4.18%
gib
-1.98%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.52%
ALON
-0.47%
LAUNCHCOIN
-7.67%
GOONC
+1.06%
KLED
+5.4%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.37%
Boopa
+1.23%
PORK
+2.15%
主页
Tri Dao
@PrincetonCS 助理教授,首席科学家 @togethercompute.机器学习和系统。
查看原文
Tri Dao
12月19日 06:42
这是我们过去9个月一直在努力的目标:让MoE训练速度提高约2倍,内存使用减少约2倍!亮点: - MoE通常在现代模型中占用最多的时间和内存。事实证明,可以通过数学方式重写MoE的反向传播,以减少在前向传播中需要存储的激活内存约2倍,从而在不额外进行矩阵乘法重计算的情况下获得相同的梯度。我非常喜欢这个结果,因为它结合了算法和系统的见解。 - 分析MoE层的瓶颈会导致一种自然的优化策略:尽可能减少内存的读写!收集前向传播的输入和反向传播的输出梯度有时会花费与分组GEMM相同的时间。我们将收集与分组GEMM融合,并重叠内存访问和计算,使整个层的速度提高约2倍。 - 计算专家路由的top-k可能会花费意外的时间,约占整个MoE层的15-20%!标准的top-k实现使用基数top-k算法,适合大k但对小k不够优化。我们使用比托尼克top-k算法重写了top-k,有时比pytorch的top-k快20-30倍! 所有主要内核都是用Cute-DSL编写的,因此应该很容易扩展(并安装 :D)。Hopper内核已经发布,Blackwell内核也快准备好了。MoE模型的训练硬件效率曾经低于2倍,希望Sonic-MOE能改变这一点。
Wentao Guo
12月19日 05:55
🚀SonicMoE🚀:一个为NVIDIA Hopper GPU优化的超快速MoE实现。SonicMoE将激活内存减少了45%,在H100上比之前的SOTA快1.86倍😃 论文: 与@MayankMish98、@XinleC295、@istoica05、@tri_dao合作
946
Tri Dao
12月16日 07:21
Nvidia 继续推出一些最强大和最快的开放模型。预训练和后训练数据也已发布,这在很少有组织做到的事情。
Bryan Catanzaro
12月15日 22:04
今天,@NVIDIA 正在推出开放的 Nemotron 3 模型系列,首个型号是 Nano (30B-3A),它通过一种新颖的混合 SSM 专家模型架构推动了准确性和推理效率的前沿。Super 和 Ultra 将在接下来的几个月内推出。
35
热门
排行
收藏