Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czego brakuje, aby zbudować użyteczne agenty do głębokich badań?
Agenty do głębokich badań obiecują raporty na poziomie analityków dzięki zautomatyzowanemu wyszukiwaniu i syntezie. Jednak obecne systemy nie spełniają oczekiwań dotyczących rzeczywiście użytecznych badań.
Pytanie brzmi: gdzie dokładnie zawodzą?
Ten nowy artykuł wprowadza FINDER, benchmark 100 zadań badawczych opracowanych przez ludzi, z 419 uporządkowanymi punktami kontrolnymi do oceny jakości raportów. W przeciwieństwie do benchmarków QA, FINDER koncentruje się na kompleksowej generacji raportów.
Badacze przeanalizowali około 1 000 raportów z głównych agentów do głębokich badań. Ich odkrycia kwestionują założenia dotyczące tego, gdzie te systemy do głębokich badań mają trudności.
Obecne agenty nie mają problemów z rozumieniem zadań. Zawodzą w integracji dowodów, weryfikacji i planowaniu odpornym na rozumowanie. Rozumieją, o co pytasz. Po prostu nie potrafią wiarygodnie zsyntetyzować odpowiedzi.
Artykuł wprowadza DEFT, pierwszą taksonomię porażek dla agentów do głębokich badań. Identyfikuje 14 odrębnych trybów porażek w trzech kategoriach: porażki w rozumowaniu, porażki w pozyskiwaniu informacji i porażki w generacji.
Ta systematyczna analiza ujawnia, że różnica między obecnymi możliwościami a użytecznymi badaniami nie dotyczy mądrzejszego wyszukiwania czy lepszych modeli językowych. Chodzi o architekturę rozumowania, która łączy pozyskiwanie informacji z syntezą.
(zakładka)
Artykuł:

Najlepsze
Ranking
Ulubione

