A transferência de peso é um dos maiores gargalos ao realizar RL distribuído em modelos de alta capacidade. O nosso primeiro blog de Pesquisa Perplexity explica como os engenheiros de inferência da Perplexity aproveitaram a comunicação ponto a ponto RDMA para desbloquear atualizações de parâmetros ultra-rápidas para modelos de trilhões de parâmetros. Ao aproveitar primitivas RDMA de baixo nível, agendamento estático e pipelining, aceleramos as atualizações em uma ordem de magnitude, para apenas 1,3 segundos por atualização.