🚨 DeepSeek 刚刚做了一件疯狂的事情。 他们构建了一个数学模型,不仅能解决问题,还能检查自己的证明,自我批评,修正逻辑,并不断尝试,直到找不到任何缺陷。 最后这一部分是突破:一个可以在你验证之前验证自己推理的模型。 结果简直令人难以置信: • IMO 2025 金奖水平表现 • CMO 2024 金奖水平表现 • Putnam 2024 118/120,近乎完美,超越每一个人类得分 • 在最难的类别中超越 GPT-5 Thinking 和 Gemini 2.5 Pro DeepSeek Math V2 疯狂的地方不是准确性,而是其背后的架构。 他们没有追求更大的模型或更长的思维链。 他们构建了一个生态系统: ✓ 一个专门的验证器,寻找逻辑漏洞 ✓ 一个元验证器,检查验证器是否在幻觉 ✓ 一个证明生成器,学会害怕糟糕的推理 ✓ 以及一个训练循环,模型不断生成更难的证明,迫使验证器进化 这个循环是残酷的: 生成 → 验证 → 元验证 → 修正 → 重复。 他们解决的核心问题是:最终答案的准确性在定理证明中毫无意义。你可以用糟糕的逻辑得到正确的数字。因此,他们训练了一个验证器来判断证明本身,而不是最终答案。 ...