我認為我們對這麼大的 MoEs(特別是高級的 post-DSMoE 架構)的行為並不理解。但我們知道,即使在總計約 28B 的情況下,0.8% 的擴展是好的。而且,超越 "更細粒度" 的稀疏性利用的聰明方法變得可能。我認為在 10T 時 1% 是 *保守的*。