为什么我们不为代理任务进行预训练模型? 好吧,这些家伙做到了。并且成功了。 他们在预训练和后训练之间引入了一个中间步骤。他们合成了代理动作数据,他们的AgentFounder-30B模型在10个基准测试中设定了新的SOTA。 在这个代理持续预训练步骤之后,SFT的损失也显著更小。 这为什么有效? 因为通用基础模型通常没有代理归纳偏差,这将负担放在后训练上。 当你在预训练阶段引入多步骤推理和工具使用时,你为后训练铺平了道路,特别是当你用短期和长期代理任务的混合来做这件事时。 那么,如果你在代理上运营你的业务或以任何规模构建它们,这意味着什么? 你可以以低成本合成数据,进一步预训练一个基础模型,然后进行后训练。