Por que não pré-treinamos modelos para tarefas agenticas? bem, esses caras fizeram. e funcionou. Eles introduziram uma etapa intermediária após o pré-treinamento e antes do pós-treinamento. eles sintetizaram os dados de ação do agente e seu modelo AgentFounder-30B define o novo SOTA em 10 benchmarks. O SFT também tem uma perda significativamente menor após esta etapa de pré-treinamento contínuo agente. Por que isso funciona? porque os modelos fundamentais de uso geral geralmente não têm viés indutivo agente, colocando o burdon no pós-treinamento. Quando você introduz o raciocínio em várias etapas e o uso de ferramentas no estágio de pré-treinamento, você facilita o caminho para o pós-treinamento, especialmente quando você faz isso com uma mistura de tarefas agenciais de curto e longo horizonte. Então, o que isso significa se você administra seu negócio com agentes ou os constrói em qualquer escala? Você pode sintetizar dados a baixo custo, pré-treinar ainda mais um modelo básico e, em seguida, treiná-lo posteriormente.