一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

NVIDIA 研究刚刚使 LLM 的速度提高了 53 倍。🤯 想象一下将你的 AI 推理预算削减 98%。这一突破不需要从头开始训练新模型；它可以升级你现有的模型，实现超高速，同时匹配或超越 SOTA 精度。它是如何工作的：这个技术称为后神经架构搜索（PostNAS）。这是一种革命性的过程，用于改造预训练模型。冻结知识：它从一个强大的模型（如 Qwen2.5）开始，并锁定其核心 MLP 层，保留其智能。手术替换：然后，它使用硬件感知搜索将大多数慢速的 O(n²) 全注意力层替换为一种新的超高效线性注意力设计，称为 JetBlock。优化吞吐量：搜索保留了一些关键的全注意力层，放在复杂推理所需的确切位置，创建一个在 H100 GPU 上优化速度的混合模型。结果是 Jet-Nemotron：一个每秒交付 2,885 个标记的 AI，具有顶级模型性能和 47 倍更小的 KV 缓存。这对你的 AI 战略有什么重要性： - 商业领袖：53 倍的加速意味着在大规模推理中约 98% 的成本降低。这从根本上改变了部署高性能 AI 的投资回报计算。 - 从业者：这不仅仅适用于数据中心。巨大的效率提升和微小的内存占用（154MB 缓存）使得在内存受限和边缘硬件上部署 SOTA 级别的模型成为可能。 - 研究人员：PostNAS 提供了一种新的、资本高效的范式。与其花费数百万进行预训练，你现在可以通过修改现有模型来创新架构，显著降低创建新颖高效 LMs 的门槛。

218.75K