Ik denk dat we het gedrag van zulke grote MoE's (vooral met geavanceerde post-DSMoE-architecturen) niet begrijpen. Maar we weten dat schaling goed is met 0,8% zelfs bij ≈28B totaal. En slimme manieren om sparsiteit te benutten buiten "fijner korrel" worden mogelijk. Ik zeg 1% bij 10T is *conservatief*.