🚨中國的 DeepSeek 剛剛推出了唯一一個足夠擅長數學的開源模型,能夠贏得 IMO 金獎,還有一份必讀報告! 關鍵思想來自 Karpathy 和其他人所談論的內容:超越「最終答案強化學習」,進入純語言中的生成器–驗證器–元驗證器循環。 – 驗證器經過強化學習訓練以評分證明。 – 元驗證器檢查驗證器的批評。 – 生成器根據驗證器的獎勵信號進行強化學習訓練,以撰寫和自我檢查更好的證明。 因為一切都存在於自然語言中(沒有 Lean),這個配方應該能擴展到許多可驗證的領域:科學、代碼,任何檢查比解決更容易的地方!