DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Compreensão longa em vídeo quebra a maioria dos LLMs multimodais. A abordagem padrão para processar vídeos de uma hora envolve comprimir conteúdo em resumos com perdas ou reduzir agressivamente os quadros. Isso transfere o ônus do raciocínio temporal para uma etapa inicial e irreversível. Evidências detalhadas se perdem antes mesmo do modelo começar a raciocinar. Mas e se o modelo pudesse decidir ativamente o que observar, quando consultar detalhes e quando tiver reunido evidências suficientes? Essa nova pesquisa introduz o LongVideoAgent, um framework multi-agente onde um LLM mestre coordena agentes especializados em vez de codificar passivamente tudo inicialmente. O raciocínio agente permite que os modelos foquem em clipes relevantes e coletem evidências direcionadas, em vez de torcer para que a informação correta sobreviva à compressão. A arquitetura possui três componentes. Um agente mestre lida com o raciocínio e decide qual ação tomar em cada etapa. Um agente de castigo localiza segmentos relevantes para a questão dentro da linha do tempo completa do episódio. Um agente visual extrai observações direcionadas de quadros específicos dentro desses segmentos. O agente mestre executa até K etapas, emitindo exatamente uma ação estruturada por turno: solicitar aterramento, consultar detalhes visuais ou responder. A saída de cada ação alimenta o contexto para a próxima decisão. Quando evidências suficientes se acumulam, o mestre produz uma resposta final. A vida real ensina o mestre do agente quando explorar e quando parar. O treinamento em GRPO utiliza duas recompensas simples: validade estrutural para ações bem formadas e correção da resposta no término. Esse objetivo mínimo orienta a coordenação estruturada de múltiplas voltas sem supervisão densa. No LongTVQA e LongTVQA+, benchmarks em nível de episódio agregados a partir do TVQA, a abordagem agente consistentemente supera as linhas de base não agentes. O GPT5-mini salta de 62,4% para 71,1% com a estrutura multiagente. O Qwen2.5-3B melhora de 23,5% para 47,4% após o treinamento RL, quase dobrando o desempenho. Até mesmo o DeepSeek-R1-671B se beneficia do design agente. Só o grounding vence a linha base do não-agente em 69,0% contra 64,3%, e adicionar visão eleva a precisão para 74,8%. Papel: Aprenda a construir agentes de IA eficazes em nossa academia:

Melhores

Classificação

Favoritos