Todo el mundo está optando por MoEs ultra-esparcidos Si tomamos la hoja de ruta de Alibaba como referencia Entonces 10T parámetros (con 1% de activación, 100B activos) y entrenados en 100 billones de tokens al 30% de MFU requerirán 6 * 10e25 FLOPs Se puede entrenar en 58 días en un clúster H200 de 20K ($300M en hardware si compras o $60M si alquilas)