熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
所以你選擇死亡

在物件層面上回應 @TheZvi
從技術上講,DSA 可能是一個重大飛躍,使得 Gemini 級別的上下文變得非常便宜,即使對於前一代模型來說。注意事項:
- 我們不確定它是否能擴展到 1M+(但 V3.2 的 exp≥V3.1,儘管預訓練相同,而 V3.2>> exp,因此很可能是的)
- 我們不確定如何在不從密集注意力啟動的情況下進行訓練。也許 DeepSeek 知道。我認為 V4 不會使用 DSA,它明確被稱為原型。在最壞的情況下,使用全注意力進行預訓練 => 擴展 => 稀疏化也是合理的,你在預訓練中花費更多成本以獲得永久更便宜的推理。
- Kimi 的 KDA 或 Qwen 的 GDN+ 或其他可能比 DSA+/NSA+ 更好。
在這些注意事項的前提下,這不是 2 倍的價格降低,我是在諷刺。更像是 10 倍。稀疏注意力不會退化是相當重要的。
在速度方面,從模型的角度來看這是一個空洞的觀點。DeepSeek 不感興趣於提供最佳產品。他們使用大量批次的 H800s/Ascends 進行服務。你可以將其放在美國硬體上,獲得 60-150 t/s,或者在 Cerebras 上獲得類似 GLM 的 1000 t/s,而不會大幅增加成本。這種架構本質上是快速的(淺層、便宜的注意力),只是 DeepSeek 提供的速度較慢。
在前沿智能方面,我想說的是,這些「使用最大化」的前沿優勢——主要是代理編碼,但你可以以相同的方式涵蓋更多領域——是基於在 RL 步驟和在合成環境中迭代的計算支出。他們擁有這個配方。他們報告約 10% 的預訓練成本用於 Speciale。那大約是 $600K。據報導,Grok 4 使用了 100% 的 Grok 3,或數千萬到數億。顯然,Grok 的效率非常低,但我認為 DeepSeek 可以輕鬆達到 100%,這個配方是已知的。他們可能不想在過時的基礎上浪費它,因為他們指出它仍然是知識瓶頸。
我覺得對 IMO 級數學表現(或零-shot 解決 Erdos 問題到人類解決者說「是的,這基本上是我的解決方案」的程度)的輕率態度很有趣。我們難道不應該期待從獨立的數學研究中獲得 AGI 嗎?還是現在只有編碼。可以說,這是估計起飛速度最有趣的能力。但無論如何,我自己相信緩慢的起飛,自我改進無論從哪裡開始都會遇到後勤問題。
在這裡,主要的貢獻,如我所說,是他們宣布相信從根本上講,他們已經解決了 2025 年晚期前沿 LLM 的訓練作為一個研究計劃,並且可以通過投入更多計算(加上對標記效率的輕微調整)來達到當前的西方水平或超越它。理論上,他們對於更大規模訓練的公告最終可以解釋為「這就是我們現在正在做的」。但這仍有待觀察。
@TheZvi > 儘管預訓練和後訓練相同,修正
3.57K
熱門
排行
收藏

