Cei care fac deep learning tind să creadă că atunci când gradientele (ordinul 1) se blochează, cu siguranță curbura (ordinul 2/Hessian) este soluția. Este foarte posibil ca mutarea mai bună să fie în direcția opusă: metodele de ordinul 0.