Même avec des gradients en lot complet, les optimisateurs DL défient la théorie classique de l'optimisation, car ils opèrent à la *limite de la stabilité.* Avec @alex_damian_, nous introduisons les "flux centraux" : un outil théorique pour analyser ces dynamiques qui fait des prédictions quantitatives précises sur de vrais réseaux de neurones.