有用なディープリサーチエージェントを作るために何が足りないのでしょうか? ディープリサーチエージェントは、自動検索と統合を通じてアナリストレベルのレポートを約束します。しかし、現行のシステムは本当に有用な研究には至っていません。 問題は、どこで失敗するのかということです。 本新論文では、報告書の質を評価するための419の構造化されたチェックリスト項目を含む、100の人間が厳選した研究タスクのベンチマークであるFINDERを紹介します。QAベンチマークとは異なり、FINDERは包括的なレポート生成に重点を置いています。 研究者たちは、主流のディープリサーチエージェントから約1,000件の報告を分析しました。彼らの発見は、これらの深層研究システムが苦戦している点についての前提に挑戦しています。 現在のエージェントはタスク理解に苦労していません。彼らは証拠の統合、検証、そして論理に耐えた計画に失敗しています。彼らはあなたの質問を理解しています。ただ、彼らは答えを安定して合成できないだけです。 本論文では、ディープリサーチエージェントに関する最初の失敗分類法であるDEFTを紹介しています。推論失敗、検索失敗、生成失敗の3つのカテゴリーにまたがる14の異なる障害モードを特定します。 この体系的な分析は、現在の能力と有用な研究とのギャップは、より賢い検索やより良い言語モデルの問題ではないことを明らかにしています。検索と合成を結びつける推論アーキテクチャについてです。 (ブックマーク) 紙: