Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cái gì còn thiếu để xây dựng các tác nhân nghiên cứu sâu hữu ích?
Các tác nhân nghiên cứu sâu hứa hẹn báo cáo ở cấp độ phân tích thông qua tìm kiếm và tổng hợp tự động. Tuy nhiên, các hệ thống hiện tại không đạt yêu cầu về nghiên cứu thực sự hữu ích.
Câu hỏi là: chúng thất bại ở đâu chính xác?
Bài báo mới này giới thiệu FINDER, một tiêu chuẩn gồm 100 nhiệm vụ nghiên cứu do con người biên soạn với 419 mục kiểm tra có cấu trúc để đánh giá chất lượng báo cáo. Khác với các tiêu chuẩn QA, FINDER tập trung vào việc tạo ra báo cáo toàn diện.
Các nhà nghiên cứu đã phân tích khoảng 1.000 báo cáo từ các tác nhân nghiên cứu sâu chính thống. Những phát hiện của họ thách thức các giả định về nơi mà các hệ thống nghiên cứu sâu này gặp khó khăn.
Các tác nhân hiện tại không gặp khó khăn với việc hiểu nhiệm vụ. Họ thất bại trong việc tích hợp bằng chứng, xác minh và lập kế hoạch bền vững về lý luận. Họ hiểu những gì bạn đang hỏi. Họ chỉ không thể tổng hợp câu trả lời một cách đáng tin cậy.
Bài báo giới thiệu DEFT, phân loại thất bại đầu tiên cho các tác nhân nghiên cứu sâu. Nó xác định 14 chế độ thất bại khác nhau trong ba loại: thất bại lý luận, thất bại truy xuất và thất bại tạo ra.
Sự phân tích hệ thống này tiết lộ rằng khoảng cách giữa khả năng hiện tại và nghiên cứu hữu ích không phải là về tìm kiếm thông minh hơn hay mô hình ngôn ngữ tốt hơn. Nó liên quan đến kiến trúc lý luận kết nối việc truy xuất với tổng hợp.
(đánh dấu nó)
Bài báo:

Hàng đầu
Thứ hạng
Yêu thích

