Acho que não entendemos o comportamento de MoEs tão grandes (particularmente com arquiteturas avançadas pós-DSMoE). Mas sabemos que a escalabilidade é boa com 0,8% mesmo com ≈28B no total. E maneiras inteligentes de explorar a esparsidade além de "granulação mais fina" tornam-se possíveis. Eu diria que 1% a 10T é *conservador*.