Creo que no entendemos el comportamiento de tales MoEs grandes (particularmente con arquitecturas avanzadas de post-DSMoE). Pero sabemos que la escalabilidad es buena con un 0.8% incluso con ≈28B en total. Y se vuelven posibles formas ingeniosas de explotar la escasez más allá de "grano más fino". Digo que un 1% a 10T es *conservador*.