一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

为什么我们不为代理任务进行预训练模型？好吧，这些家伙做到了。并且成功了。他们在预训练和后训练之间引入了一个中间步骤。他们合成了代理动作数据，他们的AgentFounder-30B模型在10个基准测试中设定了新的SOTA。在这个代理持续预训练步骤之后，SFT的损失也显著更小。这为什么有效？因为通用基础模型通常没有代理归纳偏差，这将负担放在后训练上。当你在预训练阶段引入多步骤推理和工具使用时，你为后训练铺平了道路，特别是当你用短期和长期代理任务的混合来做这件事时。那么，如果你在代理上运营你的业务或以任何规模构建它们，这意味着什么？你可以以低成本合成数据，进一步预训练一个基础模型，然后进行后训练。