Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чого бракує, щоб створити корисні агенти для глибоких досліджень?
Агенти глибоких досліджень обіцяють аналітичні звіти через автоматизований пошук і синтез. Однак сучасні системи не мають справді корисних досліджень.
Питання в тому: де саме вони зазнають невдачі?
У цій новій статті представлено FINDER — еталонний комплекс із 100 дослідницьких завдань, підібраних людиною, з 419 структурованими пунктами чек-листа для оцінки якості звітів. На відміну від бенчмарків QA, FINDER зосереджений на комплексному генеруванні звітів.
Дослідники проаналізували приблизно 1000 звітів від основних агентів глибоких досліджень. Їхні результати кидають виклик припущенням про те, де ці глибокі дослідницькі системи борються.
Поточні агенти не мають проблем із розумінням завдань. Вони не справляються з інтеграцією доказів, перевіркою та плануванням, стійким до логіки. Вони розуміють, про що ви питаєте. Вони просто не можуть надійно сформулювати відповідь.
У статті представлено DEFT — першу таксономію невдач для агентів глибоких досліджень. Він визначає 14 різних режимів відмов у трьох категоріях: збоїв мислення, невдачі у пошуку та помилки генерації.
Цей систематичний аналіз показує, що розрив між поточними можливостями та корисними дослідженнями полягає не в розумнішому пошуку чи кращих мовних моделях. Йдеться про архітектуру мислення, яка пов'язує пошук із синтезом.
(зберіть у закладки)
Папір:

Найкращі
Рейтинг
Вибране

