DeepSeek R1 可能是第一次有三份不同的技術報告針對同一個精確的文物——原始報告、*Nature* 文章和完整的修訂。這裡解釋了很多技術、基礎設施、提示……但最大的贏家是?@TheZvi!他們*確實*意識到安全是一個問題。
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN1月7日 15:39
DeepSeek-R1 的論文在 2 天前更新,從 22 頁擴展到 86 頁,並增加了大量細節。 新內容涵蓋了自我演化的 DeepSeek-R1-Zero、DeepSeek-R1 的評估、進一步分析以及 DeepSeek-R1 的蒸餾等主題。 DeepSeek-R1:通過強化學習激勵 LLM 的推理能力 論文:
在1月31日,@EpochAIResearch 對進入R1的強化學習成本做出了估算。自從Nature論文以來,我們知道這是總預算的3倍。到底錯在哪裡? - 假設批次 = 1024 和組大小 = 64,如同DeepSeekMath。實際上:B=512,G=16。 - R1僅有1700步。
@EpochAIResearch 當然 @EgeErdil2 是經過良好校準且謹慎的,因此他確切知道可能會發生什麼。
@EpochAIResearch @EgeErdil2 我認為Ege做錯的地方是低估了他們非常清楚小型模型並不成功(他們現在分享了更多細節;r1-lite-preview可能是Qwen2.5-32B)。因此,V3的樣本效率要高得多。 一個元層級的先驗更有趣。他們落後了嗎?
867