长视频理解打破了大多数多模态LLM。 处理长达一小时的视频的默认方法涉及将内容压缩为有损摘要或大幅下采样帧。 这将时间推理的负担转移到一个早期的、不可逆转的阶段。在模型开始推理之前,细粒度的证据就已经丢失。 但如果模型可以主动决定观察什么、何时查询细节以及何时收集到足够的证据呢? 这项新研究介绍了LongVideoAgent,一个多代理框架,其中一个主LLM协调专门的代理,而不是被动地提前编码所有内容。 代理推理使模型能够专注于相关片段并收集针对性的证据,而不是寄希望于正确的信息在压缩中幸存。 该架构有三个组成部分。主代理处理推理并决定在每一步采取什么行动。定位代理在完整的剧集时间线中定位与问题相关的片段。视觉代理从这些片段中的特定帧提取目标观察。 主代理运行最多K步,每轮发出一个结构化的行动:请求定位、查询视觉细节或回答。每个行动的输出作为下一个决策的上下文。当足够的证据积累时,主代理生成最终答案。 RL教会主代理何时探索和何时停止。GRPO训练使用两个简单的奖励:结构有效性用于良好形成的行动和终止时的答案正确性。这个最小目标指导结构化的多轮协调,而无需密集监督。 在LongTVQA和LongTVQA+上,从TVQA汇总的剧集级基准,代理方法始终优于非代理基线。GPT5-mini在多代理框架下从62.4%跃升至71.1%。Qwen2.5-3B在RL训练后从23.5%提高到47.4%,几乎翻倍了性能。即使是DeepSeek-R1-671B也从代理设计中受益。 仅定位就以69.0%对64.3%击败了非代理基线,添加视觉后准确率提升至74.8%。 论文: 在我们的学院学习如何构建有效的AI代理: