深度學習的專家們往往相信,當梯度(1階)卡住時,曲率(2階/Hessian)肯定是解決方案。 但更好的做法可能是朝相反的方向:0階方法。