来自 X 账号 TestingCatalog 的爆料:Google 在 Gemini 企业版(Gemini Enterprise)里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题,再配上一套评估标准,它就能自己生成一大堆点子,然后拉起一整支智能体团队,像打锦标赛一样一轮轮评审这些点子。 这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说,这已经是非常长的一次连续推理过程了。 在这 40 分钟结束时,用户会收到一大串点子清单,按你一开始设定的标准从优到劣排好名。整个规模也不小:系统一次能产出大约 100 个点子。对每一个点子,你都能拿到: - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」(tournament performance report) 这个「表现报告」还是一个单独的输出,可以单独打开慢慢看。所有生成出来的点子都是可选择的,你可以点进任意一个,继续深入展开。 在当前的内测版本里,Google 看起来内置了三个智能体,其中有两个就是搭在这个多智能体「锦标赛」系统之上的。 第一个叫 “Idea Generation”(创意生成) 在这个模式里,你只要给一个主题,这个智能体就会启动整套多智能体工作流,用「锦标赛式评估」(tournament-style evaluation)来生成和排序各种相关点子。(所谓锦标赛式,就是不断让方案互相“对决”,胜出的留下,弱的被淘汰) 第二个叫 “Co-scientist”(联合科学家) 这个则更偏向科研和研究场景。你可以指定一个研究主题,再提供一些额外数据,然后一整个智能体团队会先生成研究方向和方案,再用同样的锦标赛机制去评估这些想法,只是这次会更强调科研和科学探索的需求。 这里最有意思的一点,是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟,这在现在的大多数智能体工具里都算是「豪华配置」了。 在整个 40 分钟里,系统会不断迭代这个问题,不停生成、筛选、打分、重组。目前,这一切都还只出现在 Gemini for Enterprise 里,属于内部开发阶段,对普通用户是隐藏的,还没有以正式功能形式对外开放。 跟现有的智能体实现相比,这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体,通常也会受限于上下文窗口和时间预算(time budget)。...