热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
很高兴分享我们最近关于 AutoJudge 的研究,这是一种解码技术,结合了:
- 通过放宽分布匹配约束来加速推理
- 由于自监督训练协议,易于使用和可扩展性
今天在 #NeurIPS2025 进行演讲! (1/9)

我们发现可以自动挖掘接受分类器的标签。具体来说,我们取一个数据集并运行目标和草稿模型生成。
然后,我们检查目标模型和草稿模型之间所有不匹配的标记。如果保留草稿模型中的标记导致错误答案,则将其标记为重要(3/9)

使用这些标签,我们可以训练一个简单的分类器,在推理时找到重要的标记。
如果原始的推测解码会拒绝一个标记,我们会通过询问分类器给它一个第二次机会。对于不重要的标记,我们继续生成,但对于其他标记,我们开始一个新的推测周期(4/9)

我们对 AutoJudge 的主要评估集中在易于测量答案正确性的任务上——编程(LiveCodeBench)和数学(GSM8K)。
对于 8B/70B 这样的模型对,我们可以在每个周期内实现高达 40 个接受的标记,准确率下降不到 1%!(5/9)

AutoJudge 还可以轻松与开源推理框架如 vLLM 集成。接受率的提升转化为端到端的速度提升:如果我们牺牲 2% 的准确性,就能获得几乎 50% 的每秒更多令牌! (6/9)

检查重要标记的注释揭示了一个奇怪的模式:明显的错误被标记为负样本(=> 需要重新生成),而语义等价的标记则允许推测继续(7/9)

要了解更多,请查看:
论文:
代码:
博客文章:
GSM8K 和 LiveCodeBench 的预计算激活:
(8/9)
这项工作由我出色的合著者 @garipovroma、@MightyNeighbour、Ivan Ermakov、Ruslan Svirschevski 和 Vage Egiazarian 领导。
团队本周在圣地亚哥参加 NeurIPS——今天在海报展上来打个招呼吧!
下午4:30,海报 #2010 (9/9)
2.52K
热门
排行
收藏

