これほど大きなMoEの挙動(特に高度なポストDSMoEアーキテクチャでは)を理解していないと思います。しかし、スケーリングは0.8%で、合計≈28Bでも良いことはわかっています。そして「細かい粒度」を超えた希少さを巧みに利用する方法も可能になる。私は10Tで1%が*保守的*だと言います。