エージェントタスク用にモデルを事前トレーニングしてみませんか? まあ、彼らはそうしました。そしてそれはうまくいきました。 彼らは、事前トレーニングの後とトレーニング後の前に中間ステップを導入しました。彼らはエージェントのアクションデータを合成し、AgentFounder-30B モデルは 10 のベンチマークで新しい SOTA を設定します。 また、SFT は、このエージェント継続的事前トレーニング ステップ後の損失も大幅に小さくなります。 なぜこれが機能するのでしょうか? 汎用基礎モデルには通常、エージェントの帰納バイアスがなく、バードンをトレーニング後に置くためです。 トレーニング前の段階で多段階の推論とツールの使用を導入すると、特に短期間のエージェントタスクと長期期間のエージェントタスクを組み合わせて行う場合、トレーニング後の方法が容易になります。 では、エージェントでビジネスを運営したり、あらゆる規模でエージェントを構築したりする場合、これは何を意味するのでしょうか? 低コストでデータを合成し、基礎モデルをさらに事前学習させてから、事後学習を行うことができます。