更多的預訓練改善了 GEN-0 實機性能(通過盲目的 A/B 評估和閉環回放)。 在低數據環境下,改進是顯著的,但最佳模型在預訓練和充足的後訓練下表現最佳。 請參見博客附錄: