即使在全批量梯度下,深度学习优化器也违背了经典优化理论,因为它们在*稳定性边缘*运行。 与@alex_damian_一起,我们引入了“中心流”:一种分析这些动态的理论工具,可以对真实神经网络做出准确的定量预测。