一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚨中国的DeepSeek刚刚发布了唯一一个足够优秀的开源模型，能够在IMO中赢得金牌，还有一份必读报告！关键思想源于Karpathy和其他人所谈论的内容：超越“最终答案强化学习”，进入一个生成器–验证器–元验证器的循环，完全基于自然语言。 – 验证器经过强化学习训练以评分证明。 – 元验证器检查验证器的批评。 – 生成器在验证器奖励信号上进行强化学习训练，以编写和自我检查更好的证明。因为一切都存在于自然语言中（没有Lean），这个配方应该可以扩展到许多可验证的领域：科学、代码、任何检查比解决更容易的地方！