深度学习的专家们倾向于认为,当梯度(1阶)停滞时,曲率(2阶/海森矩阵)肯定是解决方案。 但更好的选择可能是朝相反的方向:0阶方法。