构建有用的深度研究代理还缺少什么? 深度研究代理通过自动搜索和综合提供分析师级别的报告。然而,当前的系统在提供真正有用的研究方面仍显不足。 问题是:它们究竟在哪些方面失败? 这篇新论文介绍了FINDER,这是一个包含100个人工策划研究任务的基准,配有419个结构化检查项,用于评估报告质量。与QA基准不同,FINDER专注于全面的报告生成。 研究人员分析了大约1,000份来自主流深度研究代理的报告。他们的发现挑战了关于这些深度研究系统在哪些方面挣扎的假设。 当前的代理在任务理解上并没有困难。它们在证据整合、验证和推理韧性规划方面失败。它们理解你在问什么。它们只是无法可靠地综合出答案。 这篇论文介绍了DEFT,这是第一个针对深度研究代理的失败分类法。它识别了三个类别中的14种不同失败模式:推理失败、检索失败和生成失败。 这种系统化的分析揭示了当前能力与有用研究之间的差距并不在于更智能的搜索或更好的语言模型,而在于将检索与综合连接起来的推理架构。 (收藏它) 论文: