Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Pesquisa interessante da Meta sobre tendências de escalonamento de hardware. Mais GPUs não significa sempre um treinamento mais rápido. A abordagem padrão para escalar o treinamento de LLM hoje continua sendo lançar mais hardware sobre o problema. Mais aceleradores, mais paralelismo, mais computação. No entanto, há um teto que a maioria das equipes não vê até atingi-lo. Esta nova pesquisa demonstra que escalar o número total de aceleradores para o treinamento de grandes modelos rapidamente gera retornos decrescentes, mesmo com hardware otimizado e estratégias de paralelização. Os pesquisadores testaram modelos Llama-2 (de 1B a 70B parâmetros) em 8 a 2.048 GPUs, abrangendo hardware V100, A100 e H100. O que eles descobriram? Ao escalar de 128 para 2.048 GPUs, a taxa de transferência diminuiu em 37,22%, enquanto o consumo de energia por GPU caiu apenas 5,87%. O culpado é a sobrecarga de comunicação. Em grandes escalas, operações AllGather e ReduceScatter (duas primitivas MPI) tornam-se gargalos. A maior parte da comunicação torna-se exposta, e a computação não consegue mais ocultar a latência. Contrariamente à intuição, estratégias de paralelismo de modelo (paralelismo de tensor e de pipeline em graus 2-4) que antes se pensava que reduziam a utilização de hardware tornam-se na verdade preferíveis em escala. Elas reduzem a comunicação exposta em comparação com o puro paralelismo de dados. Em hardware mais novo, a utilização piora, não melhora. A Utilização de FLOPS do modelo caiu de 59,67% no A100 para 40,77% no H100; chips mais rápidos expõem mais sobrecarga de comunicação. Por que isso é importante: Adicionar mais GPUs proporciona um desempenho marginal ruim por unidade adicional de potência ou hora de GPU. Equipes que escalam para milhares de aceleradores precisam reconsiderar cuidadosamente as estratégias de paralelização, em vez de assumir que mais hardware significa um treinamento mais rápido.

Top

Classificação

Favoritos