很高兴分享我们最近关于 AutoJudge 的研究,这是一种解码技术,结合了: - 通过放宽分布匹配约束来加速推理 - 由于自监督训练协议,易于使用和可扩展性 今天在 #NeurIPS2025 进行演讲! (1/9)
我们发现可以自动挖掘接受分类器的标签。具体来说,我们取一个数据集并运行目标和草稿模型生成。 然后,我们检查目标模型和草稿模型之间所有不匹配的标记。如果保留草稿模型中的标记导致错误答案,则将其标记为重要(3/9)
使用这些标签,我们可以训练一个简单的分类器,在推理时找到重要的标记。 如果原始的推测解码会拒绝一个标记,我们会通过询问分类器给它一个第二次机会。对于不重要的标记,我们继续生成,但对于其他标记,我们开始一个新的推测周期(4/9)
我们对 AutoJudge 的主要评估集中在易于测量答案正确性的任务上——编程(LiveCodeBench)和数学(GSM8K)。 对于 8B/70B 这样的模型对,我们可以在每个周期内实现高达 40 个接受的标记,准确率下降不到 1%!(5/9)
AutoJudge 还可以轻松与开源推理框架如 vLLM 集成。接受率的提升转化为端到端的速度提升:如果我们牺牲 2% 的准确性,就能获得几乎 50% 的每秒更多令牌! (6/9)
检查重要标记的注释揭示了一个奇怪的模式:明显的错误被标记为负样本(=> 需要重新生成),而语义等价的标记则允许推测继续(7/9)
要了解更多,请查看: 论文: 代码: 博客文章: GSM8K 和 LiveCodeBench 的预计算激活: (8/9)
这项工作由我出色的合著者 @garipovroma、@MightyNeighbour、Ivan Ermakov、Ruslan Svirschevski 和 Vage Egiazarian 领导。 团队本周在圣地亚哥参加 NeurIPS——今天在海报展上来打个招呼吧! 下午4:30,海报 #2010 (9/9)
2.52K