🚨 DeepSeekは今、とんでもないことをやった。 彼らは単に問題を解決するだけでなく、自分自身の証明を確認し、自分自身を批判し、論理を修正し、一つも欠陥を見つけられないまで何度も挑戦する数学モデルを作りました。 その最後の部分こそが画期的な部分であり、モデルはあなたが検証する前に自分の論理を検証できます。 そしてその結果はとんでもないものだ: ・IMO 2025におけるゴールドレベルのパフォーマンス • CMO 2024におけるゴールドレベルのパフォーマンス ・Putnam 2024で118/120、ほぼパーフェクト、すべての人間のスコアを上回る • 最も難しいカテゴリーでGPT-5 ThinkingやGemini 2.5 Proを上回るパフォーマンス DeepSeek Math V2のクレイジーなのは正確さではなく、その背後にあるアーキテクチャです。 彼らは大きなモデルや長い思考の連鎖を追いかけることはなかった。 彼らはエコシステムを築きました: ✓ 論理的なギャップを探す専用検証器 ✓ 検証者が幻覚を見ているかどうかをチェックするメタ検証器 ✓ 悪い推論を恐れることを学ぶ証明生成器 ✓ と、モデルがより難しい証明を生成し続けるトレーニングループで、検証者に進化を強いる そのサイクルは過酷です: →を生成し、検証→メタ検証→修正→繰り返します。 彼らが解決した核心的な問題は、最終解の正確さは定理証明において何の意味も持たないということです。ガベージロジックで正しい数値を出せます。つまり、最終的な答えではなく証明そのものを判断する検証者を訓練したのです。 ...