一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

NVIDIA 研究剛剛使 LLM 的速度提高了 53 倍。🤯 想像一下將你的 AI 推理預算削減 98%。這一突破不需要從頭開始訓練新模型；它可以升級你現有的模型，實現超高速，同時匹配或超越 SOTA 精度。它是如何工作的：這個技術稱為後神經架構搜索（PostNAS）。這是一種革命性的過程，用於改造預訓練模型。凍結知識：它從一個強大的模型（如 Qwen2.5）開始，並鎖定其核心 MLP 層，保留其智能。手術替換：然後，它使用硬體感知搜索將大多數慢速的 O(n²) 全注意力層替換為一種新的超高效線性注意力設計，稱為 JetBlock。優化吞吐量：搜索保留了一些關鍵的全注意力層，放在複雜推理所需的確切位置，創建一個在 H100 GPU 上優化速度的混合模型。結果是 Jet-Nemotron：一個每秒交付 2,885 個標記的 AI，具有頂級模型性能和 47 倍更小的 KV 快取。這對你的 AI 策略有什麼重要性： - 商業領袖：53 倍的加速意味著在大規模推理中約 98% 的成本降低。這從根本上改變了部署高性能 AI 的投資回報計算。 - 從業者：這不僅僅適用於數據中心。巨大的效率提升和微小的記憶體佔用（154MB 快取）使得在記憶體受限和邊緣硬體上部署 SOTA 級別的模型成為可能。 - 研究人員：PostNAS 提供了一種新的、資本高效的範式。與其花費數百萬進行預訓練，你現在可以通過修改現有模型來創新架構，顯著降低創建新穎高效 LMs 的門檻。

218.75K