Интересное исследование от Meta о тенденциях масштабирования аппаратного обеспечения. Большее количество GPU не всегда означает более быстрое обучение. Стандартный подход к масштабированию обучения LLM сегодня остается в том, чтобы бросать больше аппаратного обеспечения на проблему. Больше ускорителей, больше параллелизма, больше вычислений. Однако есть потолок, который большинство команд не видят, пока не столкнутся с ним. Это новое исследование демонстрирует, что увеличение общего числа ускорителей для обучения больших моделей быстро приводит к убывающей отдаче, даже с оптимизированным аппаратным обеспечением и стратегиями параллелизации. Исследователи тестировали модели Llama-2 (от 1B до 70B параметров) на 8 до 2,048 GPU, охватывающих аппаратное обеспечение V100, A100 и H100. Что они обнаружили? При масштабировании с 128 до 2,048 GPU, пропускная способность уменьшилась на 37.22%, в то время как потребление энергии на один GPU упало всего на 5.87%. Виновник - накладные расходы на связь. На больших масштабах операции AllGather и ReduceScatter (две примитивы MPI) становятся узкими местами. Большинство коммуникаций становится видимыми, и вычисления больше не могут скрыть задержку. Против интуиции, стратегии параллелизма модели (тензорный и конвейерный параллелизм на уровнях 2-4), которые ранее считались снижающими использование аппаратного обеспечения, на самом деле становятся предпочтительными на больших масштабах. Они уменьшают видимую коммуникацию по сравнению с чистым параллелизмом данных. На более новом аппаратном обеспечении использование становится хуже, а не лучше. Использование FLOPS модели упало с 59.67% на A100 до 40.77% на H100; более быстрые чипы выявляют больше накладных расходов на связь. Почему это важно: добавление большего количества GPU дает плохую предельную производительность на единицу мощности или GPU-часа. Команды, масштабирующиеся до тысяч ускорителей, должны тщательно пересмотреть стратегии параллелизации, а не предполагать, что большее количество аппаратного обеспечения означает более быстрое обучение.