Pesquisa interessante da Meta sobre tendências de escalonamento de hardware. Mais GPUs nem sempre significam treinamento mais rápido. A abordagem padrão para escalar o treinamento de LLM hoje continua sendo lançando mais hardware para o problema. Mais aceleradores, mais paralelismo, mais computação. No entanto, há um teto que a maioria dos times só percebe quando o atinge. Essa nova pesquisa demonstra que escalar o número total de aceleradores para treinamento de grandes modelos rapidamente gera retornos decrescentes, mesmo com hardware otimizado e estratégias de paralelização. Os pesquisadores testaram modelos Llama-2 (parâmetros 1B a 70B) em 8 a 2.048 GPUs, abrangendo hardware V100, A100 e H100. O que eles encontraram? Ao escalar de 128 para 2.048 GPUs, a taxa de transferência diminuiu 37,22%, enquanto o consumo por GPU caiu apenas 5,87%. O culpado é a sobrecarga de comunicação. Em grandes escalas, operações AllGather e ReduceScatter (duas primitivas MPI) tornam-se gargalos. A maior parte da comunicação fica exposta, e a computação não consegue mais esconder a latência. Contraintuitivamente, estratégias de paralelismo de modelos (paralelismo de tensor e pipeline nos graus 2-4) que antes se pensava reduzir a utilização de hardware acabam se tornando preferíveis em escala. Eles reduzem a comunicação exposta em comparação com o paralelismo puro de dados. Em hardware mais novo, a utilização piora, não melhora. A utilização do Model FLOPS caiu de 59,67% no A100 para 40,77% no H100; Chips mais rápidos expõem mais sobrecarga de comunicação. Por que isso importa: Adicionar mais GPUs proporciona desempenho marginal ruim por unidade adicional de energia ou GPU-hora. Equipes que escalam para milhares de aceleradores precisam reconsiderar cuidadosamente as estratégias de paralelização, em vez de assumir que mais hardware significa treinamento mais rápido.