NVIDIA 研究刚刚使 LLM 的速度提高了 53 倍。🤯 想象一下将你的 AI 推理预算削减 98%。 这一突破不需要从头开始训练新模型;它可以升级你现有的模型,实现超高速,同时匹配或超越 SOTA 精度。 它是如何工作的: 这个技术称为后神经架构搜索(PostNAS)。这是一种革命性的过程,用于改造预训练模型。 冻结知识:它从一个强大的模型(如 Qwen2.5)开始,并锁定其核心 MLP 层,保留其智能。 手术替换:然后,它使用硬件感知搜索将大多数慢速的 O(n²) 全注意力层替换为一种新的超高效线性注意力设计,称为 JetBlock。 优化吞吐量:搜索保留了一些关键的全注意力层,放在复杂推理所需的确切位置,创建一个在 H100 GPU 上优化速度的混合模型。 结果是 Jet-Nemotron:一个每秒交付 2,885 个标记的 AI,具有顶级模型性能和 47 倍更小的 KV 缓存。 这对你的 AI 战略有什么重要性: - 商业领袖:53 倍的加速意味着在大规模推理中约 98% 的成本降低。这从根本上改变了部署高性能 AI 的投资回报计算。 - 从业者:这不仅仅适用于数据中心。巨大的效率提升和微小的内存占用(154MB 缓存)使得在内存受限和边缘硬件上部署 SOTA 级别的模型成为可能。 - 研究人员:PostNAS 提供了一种新的、资本高效的范式。与其花费数百万进行预训练,你现在可以通过修改现有模型来创新架构,显著降低创建新颖高效 LMs 的门槛。
218.75K