🚨 DeepSeek 剛剛做了一件瘋狂的事。 他們建立了一個數學模型,不僅能解決問題,還能檢查自己的證明,自我批評,修正邏輯,並不斷嘗試,直到找不到任何缺陷。 最後這一部分是突破性的一步,這是一個能在你驗證之前就能驗證自己推理的模型。 而結果是驚人的: • 在 IMO 2025 上達到金級表現 • 在 CMO 2024 上達到金級表現 • 在 Putnam 2024 上獲得 118/120 的近乎完美成績,超越每一個人類分數 • 在最困難的類別中超越 GPT-5 Thinking 和 Gemini 2.5 Pro 使 DeepSeek Math V2 瘋狂的不是準確性,而是其背後的架構。 他們並沒有追求更大的模型或更長的思考鏈。 他們建立了一個生態系統: ✓ 一個專門的驗證器,尋找邏輯漏洞 ✓ 一個元驗證器,檢查驗證器是否在幻覺 ✓ 一個證明生成器,學會害怕糟糕的推理 ✓ 還有一個訓練循環,模型不斷生成更難的證明,迫使驗證器進化 這個循環是殘酷的: 生成 → 驗證 → 元驗證 → 修正 → 重複。 他們解決的核心問題是:最終答案的準確性在定理證明中毫無意義。你可以用糟糕的邏輯得到正確的數字。因此,他們訓練了一個驗證器來評判證明本身,而不是最終答案。 ...