赌注在于构建一个持续学习系统。这意味着什么?Cursor 的更新就是一个有效的例子。新数据进入,系统知道如何筛选出最有价值的样本。然后,它利用 RL/其他算法来部署一个使用这些数据训练的检查点。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari2025年8月23日
我们介绍了一种更好的方法来收集使用GRPO后的训练数据。向专家收集样本是昂贵的,注释预算有限。哪些示例实际上值得支付?我们发现,专注于困难样本可以带来30-40%的改善。 1/7
每个组件都必须仔细研究,以构建一个能够操作该系统的元算法。在训练过程中,它可以根据早期迹象评估是继续还是停止运行。为此,来自数百次运行的见解被整合到这样的系统中。
这项工作开始了一个针对可验证奖励的推理问题的过程。因为这是构建简单学习管道的最 "稳定" 环境。下一个前沿将是 LLM 作为评判者和长期、延迟奖励设置。
935