Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Compreensão longa em vídeo quebra a maioria dos LLMs multimodais.
A abordagem padrão para processar vídeos de uma hora envolve comprimir conteúdo em resumos com perdas ou reduzir agressivamente os quadros.
Isso transfere o ônus do raciocínio temporal para uma etapa inicial e irreversível. Evidências detalhadas se perdem antes mesmo do modelo começar a raciocinar.
Mas e se o modelo pudesse decidir ativamente o que observar, quando consultar detalhes e quando tiver reunido evidências suficientes?
Essa nova pesquisa introduz o LongVideoAgent, um framework multi-agente onde um LLM mestre coordena agentes especializados em vez de codificar passivamente tudo inicialmente.
O raciocínio agente permite que os modelos foquem em clipes relevantes e coletem evidências direcionadas, em vez de torcer para que a informação correta sobreviva à compressão.
A arquitetura possui três componentes. Um agente mestre lida com o raciocínio e decide qual ação tomar em cada etapa. Um agente de castigo localiza segmentos relevantes para a questão dentro da linha do tempo completa do episódio. Um agente visual extrai observações direcionadas de quadros específicos dentro desses segmentos.
O agente mestre executa até K etapas, emitindo exatamente uma ação estruturada por turno: solicitar aterramento, consultar detalhes visuais ou responder. A saída de cada ação alimenta o contexto para a próxima decisão. Quando evidências suficientes se acumulam, o mestre produz uma resposta final.
A vida real ensina o mestre do agente quando explorar e quando parar. O treinamento em GRPO utiliza duas recompensas simples: validade estrutural para ações bem formadas e correção da resposta no término. Esse objetivo mínimo orienta a coordenação estruturada de múltiplas voltas sem supervisão densa.
No LongTVQA e LongTVQA+, benchmarks em nível de episódio agregados a partir do TVQA, a abordagem agente consistentemente supera as linhas de base não agentes. O GPT5-mini salta de 62,4% para 71,1% com a estrutura multiagente. O Qwen2.5-3B melhora de 23,5% para 47,4% após o treinamento RL, quase dobrando o desempenho. Até mesmo o DeepSeek-R1-671B se beneficia do design agente.
Só o grounding vence a linha base do não-agente em 69,0% contra 64,3%, e adicionar visão eleva a precisão para 74,8%.
Papel:
Aprenda a construir agentes de IA eficazes em nossa academia:

Melhores
Classificação
Favoritos
