Selbst mit Vollbatch-Gradienten widersprechen DL-Optimierer der klassischen Optimierungstheorie, da sie am *Rand der Stabilität* operieren.
Mit @alex_damian_ führen wir "zentrale Flüsse" ein: ein theoretisches Werkzeug zur Analyse dieser Dynamik, das genaue quantitative Vorhersagen über reale NNs trifft.
Wie erwartet ist NSA nicht mit MLA kompatibel, daher wählte DeepSeek eine andere Methode: Verwenden Sie eine kleinere (d=128) Aufmerksamkeit (ohne Wert) als den Indexer.
Asymptotisches Kostenverhältnis = 128/576.
Darüber hinaus verwendet der Indexer FP8, während das Haupt-MLA 16-Bit verwendet, also = 64/576 = 1/9.