热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
NVIDIA 研究刚刚使 LLM 的速度提高了 53 倍。🤯
想象一下将你的 AI 推理预算削减 98%。
这一突破不需要从头开始训练新模型;它可以升级你现有的模型,实现超高速,同时匹配或超越 SOTA 精度。
它是如何工作的:
这个技术称为后神经架构搜索(PostNAS)。这是一种革命性的过程,用于改造预训练模型。
冻结知识:它从一个强大的模型(如 Qwen2.5)开始,并锁定其核心 MLP 层,保留其智能。
手术替换:然后,它使用硬件感知搜索将大多数慢速的 O(n²) 全注意力层替换为一种新的超高效线性注意力设计,称为 JetBlock。
优化吞吐量:搜索保留了一些关键的全注意力层,放在复杂推理所需的确切位置,创建一个在 H100 GPU 上优化速度的混合模型。
结果是 Jet-Nemotron:一个每秒交付 2,885 个标记的 AI,具有顶级模型性能和 47 倍更小的 KV 缓存。
这对你的 AI 战略有什么重要性:
- 商业领袖:53 倍的加速意味着在大规模推理中约 98% 的成本降低。这从根本上改变了部署高性能 AI 的投资回报计算。
- 从业者:这不仅仅适用于数据中心。巨大的效率提升和微小的内存占用(154MB 缓存)使得在内存受限和边缘硬件上部署 SOTA 级别的模型成为可能。
- 研究人员:PostNAS 提供了一种新的、资本高效的范式。与其花费数百万进行预训练,你现在可以通过修改现有模型来创新架构,显著降低创建新颖高效 LMs 的门槛。

218.75K
热门
排行
收藏