Todos estão a optar por MoEs ultra-esparsos Se tomarmos o roteiro da Alibaba como base Então 10T de parâmetros (com 1% de ativação, 100B ativos) e treinados em 100 trilhões de tokens a 30% de MFU exigirão 6 * 10e25 FLOPs Pode ser treinado em 58 dias em um cluster H200 de 20K ($300M em hardware se comprar ou $60M se alugar)