NVIDIA 研究剛剛使 LLM 的速度提高了 53 倍。🤯 想像一下將你的 AI 推理預算削減 98%。 這一突破不需要從頭開始訓練新模型;它可以升級你現有的模型,實現超高速,同時匹配或超越 SOTA 精度。 它是如何工作的: 這個技術稱為後神經架構搜索(PostNAS)。這是一種革命性的過程,用於改造預訓練模型。 凍結知識:它從一個強大的模型(如 Qwen2.5)開始,並鎖定其核心 MLP 層,保留其智能。 手術替換:然後,它使用硬體感知搜索將大多數慢速的 O(n²) 全注意力層替換為一種新的超高效線性注意力設計,稱為 JetBlock。 優化吞吐量:搜索保留了一些關鍵的全注意力層,放在複雜推理所需的確切位置,創建一個在 H100 GPU 上優化速度的混合模型。 結果是 Jet-Nemotron:一個每秒交付 2,885 個標記的 AI,具有頂級模型性能和 47 倍更小的 KV 快取。 這對你的 AI 策略有什麼重要性: - 商業領袖:53 倍的加速意味著在大規模推理中約 98% 的成本降低。這從根本上改變了部署高性能 AI 的投資回報計算。 - 從業者:這不僅僅適用於數據中心。巨大的效率提升和微小的記憶體佔用(154MB 快取)使得在記憶體受限和邊緣硬體上部署 SOTA 級別的模型成為可能。 - 研究人員:PostNAS 提供了一種新的、資本高效的範式。與其花費數百萬進行預訓練,你現在可以通過修改現有模型來創新架構,顯著降低創建新穎高效 LMs 的門檻。
218.75K