Selv med full-batch-gradienter, trosser DL-optimalisatorer klassisk optimaliseringsteori, da de opererer på *kanten av stabilitet.* Med @alex_damian_ introduserer vi "sentrale strømmer": et teoretisk verktøy for å analysere denne dynamikken som gir nøyaktige kvantitative prediksjoner på reelle NN-er.