La gente de deep learning suele creer que cuando los gradientes (de primer orden) se quedan atascados, seguramente la curvatura (segundo orden/hessiano) es la respuesta. Es muy posible que el mejor movimiento sea en la dirección opuesta: métodos de orden 0.