一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

很高兴分享我们最近关于 AutoJudge 的研究，这是一种解码技术，结合了： - 通过放宽分布匹配约束来加速推理 - 由于自监督训练协议，易于使用和可扩展性今天在 #NeurIPS2025 进行演讲！ (1/9)

我们发现可以自动挖掘接受分类器的标签。具体来说，我们取一个数据集并运行目标和草稿模型生成。然后，我们检查目标模型和草稿模型之间所有不匹配的标记。如果保留草稿模型中的标记导致错误答案，则将其标记为重要（3/9）

使用这些标签，我们可以训练一个简单的分类器，在推理时找到重要的标记。如果原始的推测解码会拒绝一个标记，我们会通过询问分类器给它一个第二次机会。对于不重要的标记，我们继续生成，但对于其他标记，我们开始一个新的推测周期（4/9）

我们对 AutoJudge 的主要评估集中在易于测量答案正确性的任务上——编程（LiveCodeBench）和数学（GSM8K）。对于 8B/70B 这样的模型对，我们可以在每个周期内实现高达 40 个接受的标记，准确率下降不到 1%！(5/9)

AutoJudge 还可以轻松与开源推理框架如 vLLM 集成。接受率的提升转化为端到端的速度提升：如果我们牺牲 2% 的准确性，就能获得几乎 50% 的每秒更多令牌！ (6/9)

检查重要标记的注释揭示了一个奇怪的模式：明显的错误被标记为负样本（=> 需要重新生成），而语义等价的标记则允许推测继续（7/9）

要了解更多，请查看：论文：代码：博客文章： GSM8K 和 LiveCodeBench 的预计算激活： (8/9)

这项工作由我出色的合著者 @garipovroma、@MightyNeighbour、Ivan Ermakov、Ruslan Svirschevski 和 Vage Egiazarian 领导。团队本周在圣地亚哥参加 NeurIPS——今天在海报展上来打个招呼吧！下午4:30，海报 #2010 (9/9)

2.52K

热门

排行

收藏