熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
NVIDIA 研究剛剛使 LLM 的速度提高了 53 倍。🤯
想像一下將你的 AI 推理預算削減 98%。
這一突破不需要從頭開始訓練新模型;它可以升級你現有的模型,實現超高速,同時匹配或超越 SOTA 精度。
它是如何工作的:
這個技術稱為後神經架構搜索(PostNAS)。這是一種革命性的過程,用於改造預訓練模型。
凍結知識:它從一個強大的模型(如 Qwen2.5)開始,並鎖定其核心 MLP 層,保留其智能。
手術替換:然後,它使用硬體感知搜索將大多數慢速的 O(n²) 全注意力層替換為一種新的超高效線性注意力設計,稱為 JetBlock。
優化吞吐量:搜索保留了一些關鍵的全注意力層,放在複雜推理所需的確切位置,創建一個在 H100 GPU 上優化速度的混合模型。
結果是 Jet-Nemotron:一個每秒交付 2,885 個標記的 AI,具有頂級模型性能和 47 倍更小的 KV 快取。
這對你的 AI 策略有什麼重要性:
- 商業領袖:53 倍的加速意味著在大規模推理中約 98% 的成本降低。這從根本上改變了部署高性能 AI 的投資回報計算。
- 從業者:這不僅僅適用於數據中心。巨大的效率提升和微小的記憶體佔用(154MB 快取)使得在記憶體受限和邊緣硬體上部署 SOTA 級別的模型成為可能。
- 研究人員:PostNAS 提供了一種新的、資本高效的範式。與其花費數百萬進行預訓練,你現在可以通過修改現有模型來創新架構,顯著降低創建新穎高效 LMs 的門檻。

218.75K
熱門
排行
收藏