🚨中国的DeepSeek刚刚发布了唯一一个足够优秀的开源模型,能够在IMO中赢得金牌,还有一份必读报告! 关键思想源于Karpathy和其他人所谈论的内容:超越“最终答案强化学习”,进入一个生成器–验证器–元验证器的循环,完全基于自然语言。 – 验证器经过强化学习训练以评分证明。 – 元验证器检查验证器的批评。 – 生成器在验证器奖励信号上进行强化学习训练,以编写和自我检查更好的证明。 因为一切都存在于自然语言中(没有Lean),这个配方应该可以扩展到许多可验证的领域:科学、代码、任何检查比解决更容易的地方!