一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨中國的 DeepSeek 剛剛推出了唯一一個足夠擅長數學的開源模型，能夠贏得 IMO 金獎，還有一份必讀報告！關鍵思想來自 Karpathy 和其他人所談論的內容：超越「最終答案強化學習」，進入純語言中的生成器–驗證器–元驗證器循環。 – 驗證器經過強化學習訓練以評分證明。 – 元驗證器檢查驗證器的批評。 – 生成器根據驗證器的獎勵信號進行強化學習訓練，以撰寫和自我檢查更好的證明。因為一切都存在於自然語言中（沒有 Lean），這個配方應該能擴展到許多可驗證的領域：科學、代碼，任何檢查比解決更容易的地方！