As pessoas que trabalham com deep learning tendem a acreditar que quando os gradientes (1ª ordem) ficam presos, certamente a curvatura (2ª ordem/Hessian) é a resposta. Pode muito bem ser que o melhor movimento esteja na direção oposta: métodos de 0ª ordem.