Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O que falta para construir agentes de pesquisa profundos e úteis?
Agentes de pesquisa profunda prometem relatórios de nível analista por meio de busca e síntese automatizadas. No entanto, os sistemas atuais ficam aquém de pesquisas realmente úteis.
A questão é: onde exatamente eles falham?
Este novo artigo apresenta o FINDER, um benchmark de 100 tarefas de pesquisa curadas por humanos com 419 itens estruturados de checklist para avaliação da qualidade dos relatórios. Ao contrário dos benchmarks de QA, o FINDER foca na geração abrangente de relatórios.
Os pesquisadores analisaram aproximadamente 1.000 relatos de agentes de pesquisa profunda convencionais. Seus achados desafiam suposições sobre onde esses sistemas de pesquisa profundos enfrentam dificuldades.
Agentes atuais não têm dificuldade em compreender tarefas. Eles falham na integração de evidências, verificação e planejamento resiliente ao raciocínio. Eles entendem o que você está pedindo. Eles simplesmente não conseguem sintetizar a resposta de forma confiável.
O artigo apresenta o DEFT, a primeira taxonomia de falha para agentes de pesquisa profunda. Ele identifica 14 modos de falha distintos em três categorias: falhas de raciocínio, falhas de recuperação e falhas de geração.
Essa análise sistemática revela que a diferença entre as capacidades atuais e pesquisas úteis não é sobre busca mais inteligente ou modelos de linguagem melhores. Trata-se da arquitetura de raciocínio que conecta a recuperação à síntese.
(marca nos favoritos)
Papel:

Melhores
Classificação
Favoritos

