por que não pré-treinamos modelos para tarefas agentivas? bem, esses caras fizeram. e funcionou. eles introduziram uma etapa intermediária após o pré-treinamento e antes do pós-treinamento. eles sintetizaram dados de ação de agentes e seu modelo AgentFounder-30B estabelece um novo SOTA em 10 benchmarks. O SFT também tem uma perda significativamente menor após esta etapa de Pré-treinamento Contínuo Agentivo. por que isso funciona? porque modelos fundacionais de propósito geral geralmente não têm viés indutivo agentivo, colocando o fardo no pós-treinamento. quando você introduz raciocínio de múltiplas etapas e uso de ferramentas na fase de pré-treinamento, você facilita o caminho para o pós-treinamento, especialmente quando você faz isso com uma mistura de tarefas agentivas de curto e longo prazo. então, o que isso significa se você administrar seu negócio com agentes ou construí-los em qualquer escala? você pode sintetizar dados a baixo custo, pré-treinar ainda mais um modelo fundacional e, em seguida, pós-treiná-lo.