¿Qué falta para construir agentes de investigación profundos útiles? Los agentes de investigación profundo prometen informes a nivel de analista mediante búsqueda y síntesis automatizadas. Sin embargo, los sistemas actuales no son realmente útiles en la investigación. La pregunta es: ¿dónde fallan exactamente? Este nuevo artículo introduce FINDER, un punto de referencia de 100 tareas de investigación seleccionadas por humanos con 419 ítems estructurados para evaluar la calidad del informe. A diferencia de los benchmarks de QA, FINDER se centra en la generación completa de informes. Los investigadores analizaron aproximadamente 1.000 informes de agentes de investigación profunda convencionales. Sus hallazgos desafían las suposiciones sobre dónde tienen dificultades estos sistemas de investigación profundos. Los agentes actuales no tienen problemas para entender tareas. Fracasan en la integración de evidencias, la verificación y la planificación resiliente al razonamiento. Entienden lo que preguntas. Simplemente no pueden sintetizar la respuesta de forma fiable. El artículo presenta DEFT, la primera taxonomía de fallo para agentes de investigación profunda. Identifica 14 modos de fallo distintos en tres categorías: fallos de razonamiento, fallos de recuperación y fallos de generación. Esta descomposición sistemática revela que la brecha entre las capacidades actuales y la investigación útil no se debe a búsquedas más inteligentes ni a mejores modelos de lenguaje. Se trata de la arquitectura de razonamiento que conecta la recuperación con la síntesis. (lo marca) Papel: