La transferencia de peso es uno de los mayores cuellos de botella cuando se realiza RL distribuida en modelos de alta capacidad. Nuestro primer blog de Perplexity Research explica cómo los ingenieros de inferencia de Perplexity aprovecharon la comunicación punto a punto RDMA para desbloquear actualizaciones de parámetros ultrarrápidas para modelos de billones de parámetros. Al aprovechar las primitivas RDMA de bajo nivel, la programación estática y la canalización, aceleramos las actualizaciones en un orden de magnitud, a solo 1,3 segundos por actualización.