DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Apa yang hilang untuk membangun agen penelitian mendalam yang berguna? Agen penelitian mendalam menjanjikan laporan tingkat analis melalui pencarian dan sintesis otomatis. Namun, sistem saat ini gagal dalam penelitian yang benar-benar berguna. Pertanyaannya adalah: di mana tepatnya mereka gagal? Makalah baru ini memperkenalkan FINDER, tolok ukur dari 100 tugas penelitian yang dikuratori manusia dengan 419 item daftar periksa terstruktur untuk mengevaluasi kualitas laporan. Tidak seperti tolok ukur QA, FINDER berfokus pada pembuatan laporan yang komprehensif. Para peneliti menganalisis sekitar 1.000 laporan dari agen penelitian mendalam arus utama. Temuan mereka menantang asumsi tentang di mana sistem penelitian mendalam ini berjuang. Agen saat ini tidak berjuang dengan pemahaman tugas. Mereka gagal dalam integrasi bukti, verifikasi, dan perencanaan penalaran-tangguh. Mereka mengerti apa yang Anda tanyakan. Mereka tidak dapat mensintesis jawabannya dengan andal. Makalah ini memperkenalkan DEFT, taksonomi kegagalan pertama untuk agen penelitian mendalam. Ini mengidentifikasi 14 mode kegagalan yang berbeda di tiga kategori: kegagalan penalaran, kegagalan pengambilan, dan kegagalan generasi. Perincian sistematis ini mengungkapkan bahwa kesenjangan antara kemampuan saat ini dan penelitian yang berguna bukanlah tentang pencarian yang lebih cerdas atau model bahasa yang lebih baik. Ini tentang arsitektur penalaran yang menghubungkan pengambilan dengan sintesis. (tandai) Kertas:

Teratas

Peringkat

Favorit