热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
苹果的新研究。
仔细想想,RAG 系统在根本上是有缺陷的。检索和生成是分别优化的,检索根据表面相似性选择文档,而生成器在没有关于实际需要什么信息的反馈的情况下生成答案。
这存在架构不匹配。
密集检索器在嵌入空间中对文档进行排名,而生成器则处理原始文本。这造成了不一致的表示空间,阻碍了端到端优化,冗余的文本处理导致上下文溢出,以及检索和生成的重复编码。
这项新研究引入了 CLaRa,一个统一框架,能够在共享的连续文档表示上执行检索和生成。
它们将文档编码一次为紧凑的内存令牌表示,以服务于这两个目的。与其维护单独的嵌入和原始文本,不如将文档压缩为密集向量,供检索器和生成器直接操作。
这使得以前不可能的事情成为可能:梯度通过可微分的 top-k 选择器使用直通估计从生成器流回检索器。检索器学习哪些文档真正增强答案生成,而不是依赖于表面相似性。
为了使压缩有效,它们引入了 SCP,一个预训练框架,合成 QA 对和释义,以教会压缩器哪些信息是必要的。简单的 QA 捕捉原子事实,复杂的 QA 促进关系推理,而释义在改变表面形式的同时保留语义。
结果:
在 16 倍压缩下,CLaRa-Mistral-7B 在 NQ 上超过基于文本的 DRO-Mistral-7B(51.41 对 51.01 F1)和 2Wiki(47.18 对 43.65 F1),同时处理的上下文远少于前者。在 4 倍压缩下,它在 Mistral-7B 上超过未压缩文本基线 2.36% 的平均值。
最值得注意的是,CLaRa 仅通过下一个令牌预测的弱监督训练,超越了具有真实相关性标签的完全监督检索器。在 HotpotQA 上,它实现了 96.21% 的 Recall@5,超过 BGE-Reranker(85.93%)超过 10 个百分点,尽管没有使用任何标注的相关性数据。
经过良好训练的软压缩可以保留重要的推理信息,同时显著减少输入长度。压缩表示过滤掉无关内容,使生成器专注于与推理相关的上下文,从而比原始文本输入更好地进行泛化。
对 AI 开发者来说是个很好的阅读材料。(收藏一下)
论文:
在我的学院学习如何与 RAG 和 AI 代理一起构建:

热门
排行
收藏
