Je pense que nous ne comprenons pas le comportement de tels grands MoE (en particulier avec des architectures avancées post-DSMoE). Mais nous savons que l'échelle est bonne avec 0,8 % même à ≈28B au total. Et des moyens astucieux d'exploiter la sparsité au-delà de "grain plus fin" deviennent possibles. Je dirais que 1 % à 10T est *conservateur*.