Smooth DiLoCo: ( @aaron_defazio и др) Недистрибутивная альтернатива с меньшими накладными расходами по памяти (только один дополнительный буфер) и непрерывным обновлением вместо периодического (довольно резкого) внешнего обновления классического DiLoCo Интересно увидеть расширение на распределенные!