Was fehlt, um nützliche Deep Research-Agenten zu entwickeln? Deep Research-Agenten versprechen Analystenberichte durch automatisierte Suche und Synthese. Aktuelle Systeme sind jedoch nicht in der Lage, wirklich nützliche Forschung zu liefern. Die Frage ist: Wo genau scheitern sie? Dieses neue Papier stellt FINDER vor, einen Benchmark von 100 von Menschen kuratierten Forschungsaufgaben mit 419 strukturierten Checklistenpunkten zur Bewertung der Berichtqualität. Im Gegensatz zu QA-Benchmarks konzentriert sich FINDER auf die umfassende Berichtserstellung. Die Forscher analysierten etwa 1.000 Berichte von gängigen Deep Research-Agenten. Ihre Ergebnisse stellen Annahmen in Frage, wo diese Deep Research-Systeme Schwierigkeiten haben. Aktuelle Agenten haben keine Probleme mit dem Verständnis der Aufgaben. Sie scheitern an der Integration von Beweisen, der Verifizierung und der planungsresistenten Argumentation. Sie verstehen, was Sie fragen. Sie können nur die Antwort nicht zuverlässig synthetisieren. Das Papier führt DEFT ein, die erste Fehlertaxonomie für Deep Research-Agenten. Sie identifiziert 14 verschiedene Fehlermodi in drei Kategorien: Argumentationsfehler, Abruffehler und Generierungsfehler. Diese systematische Analyse zeigt, dass die Lücke zwischen den aktuellen Fähigkeiten und nützlicher Forschung nicht an einer intelligenteren Suche oder besseren Sprachmodellen liegt. Es geht um die Argumentationsarchitektur, die Abruf mit Synthese verbindet. (Lesezeichen setzen) Papier: