Även med gradienter i hela batcher trotsar DL-optimerare klassisk optimeringsteori, eftersom de arbetar på *gränsen till stabilitet.* Med @alex_damian_ introducerar vi "centrala flöden": ett teoretiskt verktyg för att analysera denna dynamik som gör korrekta kvantitativa förutsägelser på verkliga NN.