Même avec des gradients en lot complet, les optimisateurs DL défient la théorie classique de l'optimisation, car ils opèrent à la *limite de la stabilité.*
Avec @alex_damian_, nous introduisons les "flux centraux" : un outil théorique pour analyser ces dynamiques qui fait des prédictions quantitatives précises sur de vrais réseaux de neurones.
Les gens : les robots remplacent l'humanité.
Réel : spectacle de danse de robots lors d'une conférence robotique de premier plan sans bouger le petit orteil.
Comme prévu, NSA n'est pas compatible avec MLA, donc DeepSeek a choisi une autre méthode : utiliser une attention plus petite (d=128) (sans valeur) comme indexeur.
Le ratio de coût asymptotique = 128/576.
De plus, l'indexeur utilise FP8 tandis que le MLA principal utilise 16 bits, donc = 64/576 = 1/9.