Навіть при повній партії градієнтів, оптимізатори DL кидають виклик класичній теорії оптимізації, оскільки вони працюють на межі стабільності.* З @alex_damian_ ми вводимо «центральні потоки»: теоретичний інструмент для аналізу цієї динаміки, який робить точні кількісні прогнози на реальних NN.