每個人都在追求超稀疏的 MoEs 如果我們以阿里巴巴的路線圖為基準 那麼 10T 參數(1% 激活,100B 活躍)並在 100 萬兆標記上以 30% MFU 訓練將需要 6 * 10e25 FLOPs 它可以在 58 天內在 20K H200 集群上訓練(如果購買則需 3 億美元硬體,若租用則需 6000 萬美元)