Co chybí k vytvoření užitečných agentů hlubokého výzkumu? Agenti hlubokého výzkumu slibují analytické zprávy prostřednictvím automatizovaného vyhledávání a syntézy. Současné systémy však nedosahují skutečně užitečného výzkumu. Otázka zní: kde přesně selhávají? Tento nový článek představuje FINDER, benchmark 100 výzkumných úkolů kurátorovaných lidmi a 419 strukturovaných kontrolních položek pro hodnocení kvality zpráv. Na rozdíl od QA benchmarků se FINDER zaměřuje na komplexní generování reportů. Výzkumníci analyzovali přibližně 1 000 zpráv od hlavních agentů hlubokého výzkumu. Jejich zjištění zpochybňují předpoklady o tom, kde tyto hluboké výzkumné systémy bojují. Současní agenti nemají problém s pochopením úkolů. Selhávají v integraci důkazů, ověřování a plánování odolném vůči uvažování. Rozumí tomu, na co se ptáš. Jen nedokážou spolehlivě syntetizovat odpověď. Článek představuje DEFT, první taxonomii selhání pro agenty hlubokého výzkumu. Identifikuje 14 odlišných režimů selhání ve třech kategoriích: selhání uvažování, selhání při vyhledávání a selhání generace. Toto systematické rozdělení ukazuje, že rozdíl mezi současnými schopnostmi a užitečným výzkumem není o chytřejším vyhledávání nebo lepších jazykových modelech. Jde o architekturu uvažování, která spojuje vyhledávání se syntézou. (ulož si to) Papír: