Даже с градиентами полного пакета, оптимизаторы DL противоречат классической теории оптимизации, так как они работают на *грани стабильности.* С @alex_damian_ мы представляем "центральные потоки": теоретический инструмент для анализа этих динамик, который делает точные количественные прогнозы для реальных НН.