Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vad saknas för att bygga användbara djupa forskningsagenter?
Djupforskningsagenter lovar analytikerrapporter genom automatiserad sökning och syntes. Dock brister nuvarande system i verkligt användbar forskning.
Frågan är: var exakt misslyckas de?
Denna nya artikel introducerar FINDER, en riktmärke av 100 människokurerade forskningsuppgifter med 419 strukturerade checklistor för att utvärdera rapportens kvalitet. Till skillnad från QA-benchmarks fokuserar FINDER på omfattande rapportgenerering.
Forskarna analyserade cirka 1 000 rapporter från etablerade djupforskningsagenter. Deras resultat utmanar antaganden om var dessa djupa forskningssystem har svårt.
Nuvarande agenter har inga problem med att förstå uppgifter. De misslyckas med att integrera bevis, verifiera och resonemangsresistent planering. De förstår vad du frågar om. De kan helt enkelt inte syntetisera svaret pålitligt.
Artikeln introducerar DEFT, den första misslyckade taxonomin för djupforskningsagenter. Den identifierar 14 distinkta felformer inom tre kategorier: resonemangsfel, återhämtningsfel och generationsfel.
Denna systematiska uppdelning visar att klyftan mellan nuvarande förfäenheter och användbar forskning inte handlar om smartare sökning eller bättre språkmodeller. Det handlar om den resonemangsarkitektur som kopplar återhämtning till syntes.
(bokmärk den)
Papper:

Topp
Rankning
Favoriter

