Todo mundo está buscando MoEs ultra-esparsos Se considerarmos o roteiro do Alibaba como base Depois, parâmetros 10T (com 1% de ativação, 100B ativo) e treinados em 100 trilhões de tokens a 30% de MFU exigirão 6 * 10e25 FLOPs Ele pode ser treinado em 58 dias em um cluster H200 de 20K (300 milhões de dólares em hardware se você comprar ou 60 milhões se alugar)