熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek R1 可能是第一次有三份不同的技術報告針對同一個精確的文物——原始報告、*Nature* 文章和完整的修訂。這裡解釋了很多技術、基礎設施、提示……但最大的贏家是?@TheZvi!他們*確實*意識到安全是一個問題。


1月7日 15:39
DeepSeek-R1 的論文在 2 天前更新,從 22 頁擴展到 86 頁,並增加了大量細節。
新內容涵蓋了自我演化的 DeepSeek-R1-Zero、DeepSeek-R1 的評估、進一步分析以及 DeepSeek-R1 的蒸餾等主題。
DeepSeek-R1:通過強化學習激勵 LLM 的推理能力
論文:


在1月31日,@EpochAIResearch 對進入R1的強化學習成本做出了估算。自從Nature論文以來,我們知道這是總預算的3倍。到底錯在哪裡?
- 假設批次 = 1024 和組大小 = 64,如同DeepSeekMath。實際上:B=512,G=16。
- R1僅有1700步。


@EpochAIResearch 當然 @EgeErdil2 是經過良好校準且謹慎的,因此他確切知道可能會發生什麼。

@EpochAIResearch @EgeErdil2 我認為Ege做錯的地方是低估了他們非常清楚小型模型並不成功(他們現在分享了更多細節;r1-lite-preview可能是Qwen2.5-32B)。因此,V3的樣本效率要高得多。
一個元層級的先驗更有趣。他們落後了嗎?


867
熱門
排行
收藏
