要建立有用的深度研究代理,缺少什麼? 深度研究代理通過自動搜索和綜合提供分析師級別的報告。然而,當前的系統在提供真正有用的研究方面仍然不足。 問題是:它們究竟在哪裡失敗? 這篇新論文介紹了FINDER,一個包含100個人類策劃的研究任務和419個結構化檢查項目的基準,用於評估報告質量。與QA基準不同,FINDER專注於全面的報告生成。 研究人員分析了大約1,000份來自主流深度研究代理的報告。他們的發現挑戰了對這些深度研究系統困難所在的假設。 當前的代理在任務理解上並不困難。它們在證據整合、驗證和推理韌性規劃方面失敗。它們理解你在問什麼。它們只是無法可靠地綜合答案。 這篇論文介紹了DEFT,首個針對深度研究代理的失敗分類法。它識別了三個類別中的14種不同失敗模式:推理失敗、檢索失敗和生成失敗。 這一系統化的分析揭示了當前能力與有用研究之間的差距並不在於更智能的搜索或更好的語言模型,而在於將檢索與綜合連接的推理架構。 (收藏它) 論文: