Nvidia 購併 Groq 有兩個原因。   1) 推理正在分解為預填充和解碼。SRAM 架構在解碼方面對於性能主要取決於記憶體帶寬的工作負載具有獨特的優勢。Rubin CPX、Rubin 以及從 Groq 衍生的假設性 "Rubin SRAM" 變體應該能讓 Nvidia 混合搭配晶片,以為每個工作負載創造性能與成本的最佳平衡。Rubin CPX 針對預填充期間的大型上下文窗口進行了優化,這是由於其相對較低帶寬的 GDDR DRAM 擁有超高的記憶體容量。Rubin 是訓練和高密度批次推理工作負載的主力,其 HBM DRAM 在記憶體帶寬和容量之間取得了平衡。從 Groq 衍生的 "Rubin SRAM" 針對超低延遲的代理推理工作負載進行了優化,這是由於 SRAM 的極高記憶體帶寬,但記憶體容量較低。在後一種情況下,CPX 或普通 Rubin 可能會用於預填充。   2) 很久以來已經很明顯,SRAM 架構能達到的每秒令牌數量遠高於 GPU、TPU 或我們迄今所見的任何 ASIC。對於每個用戶的極低延遲是以每美元的吞吐量為代價的。18 個月前,終端用戶是否願意為這種速度付費尚不明朗(由於批次大小較小,SRAM 每個令牌的成本更高)。現在從 Cerebras 和 Groq 最近的結果中顯而易見,用戶願意為速度付費。   這增加了我對除了 TPU、AI5 和 Trainium 之外的所有 ASIC 最終會被取消的信心。祝你好運,與三種 Rubin 變體和多個相關的網路晶片競爭。雖然聽起來 OpenAI 的 ASIC 會出奇地好(比 Meta 和 Microsoft 的 ASIC 好得多)。   讓我們看看 AMD 的動作。Intel 已經在朝這個方向移動(他們有一個針對預填充優化的 SKU,並購買了 SambaNova,這是最弱的 SRAM 競爭者)。有點好笑的是 Meta 購併了 Rivos。 而我有偏見的 Cerebras 現在處於一個非常有趣且高度戰略的位置,作為最後一個(根據公開知識)獨立的 SRAM 玩家,並且在所有公開基準測試中領先於 Groq。然而,Groq 的 "多晶片" 機架架構卻更容易與 Nvidia 的網路堆疊整合,甚至可能在單個機架內,而 Cerebras 的 WSE 幾乎必須是一個獨立的機架。
為了清楚起見,正如一些人在回覆中指出的,我應該注意到Nvidia實際上並沒有收購Grok。這是一項非獨占的授權協議,部分Grok工程師將加入Nvidia。Grok將繼續作為一家獨立公司運營其雲業務,實際上是Nvidia及其客戶(無論是超級雲還是新雲)的競爭對手。 總的來說,這對AI用戶來說應該是個好消息。更多的競爭,更多的代幣。 聖誕快樂,祝大家都有代幣。
104