みんな超スパースなMoEを狙っています アリババのロードマップを基準にすると 次に10Tパラメータ(1%のアクティベーション、100B有効)を使い、100兆トークンで30%のMFUで訓練すると、6 × 10e25 FLOPが必要です 20KのH200クラスターで58日間で訓練可能です(購入すればハードウェアで3億ドル、レンタルで6000万ドル)