ما الذي ينفد لبناء وكلاء بحث عميق مفيدين؟ يعد وكلاء البحث العميق بتقارير على مستوى المحللين من خلال البحث الآلي والتركيب. ومع ذلك، فإن الأنظمة الحالية لا تحقق أبحاثا مفيدة حقا. السؤال هو: أين بالضبط تفشل هذه الصور؟ تقدم هذه الورقة الجديدة FINDER، وهو معيار يضم 100 مهمة بحثية منسقة من قبل الإنسان مع 419 بندا من قائمة مراجعة منظمة لتقييم جودة التقارير. على عكس معايير ضمان الجودة، يركز FINDER على توليد التقارير الشاملة. حلل الباحثون حوالي 1000 تقرير من وكلاء بحثيين عميقين من التيار الرئيسي. تتحدى نتائجهم الافتراضات حول أين تكافح هذه الأنظمة البحثية العميقة. الوكلاء الحاليون لا يواجهون صعوبة في فهم المهام. يفشلون في دمج الأدلة، والتحقق، والتخطيط المقاوم للتفكير. هم يفهمون ما تسأل عنه. هم فقط لا يستطيعون تلخيص الإجابة بشكل موثوق. تقدم الورقة DEFT، وهو أول تصنيف فشل لوكلاء البحث العميق. يحدد 14 نمط فشل مميز عبر ثلاث فئات: فشل التفكير، فشل الاسترجاع، وفشل التوليد. يكشف هذا التحليل المنهجي أن الفجوة بين القدرات الحالية والبحث المفيد ليست في البحث الأذكى أو نماذج اللغة الأفضل. الأمر يتعلق ببنية التفكير التي تربط الاسترجاع بالتركيب. (ضع علامة مرجعية) ورق: