Quem trabalha com deep learning tende a acreditar que, quando gradientes (1ª ordem) ficam presos, certamente curvatura (2ª ordem/Hessian) é a resposta. Pode muito bem ser que o movimento melhor seja na direção oposta: métodos de ordem 0.