Todos buscan MoEs ultra escasos Si tomamos la hoja de ruta de Alibaba como referencia Luego, los parámetros 10T (con 1% de activación, 100B activos) y entrenados con 100 billones de tokens al 30% de MFU requerirán 6 * 10e25 FLOPs Se puede entrenar en 58 días en un clúster H200 de 20.000 (300 millones de dólares en hardware si compras o 60 millones si alquilas)