Mesmo com gradientes de lote completo, os otimizadores de DL desafiam a teoria clássica da otimização, pois operam na *fronteira da estabilidade.*
Com @alex_damian_, introduzimos "fluxos centrais": uma ferramenta teórica para analisar essas dinâmicas que faz previsões quantitativas precisas sobre redes neurais reais.
Como esperado, a NSA não é compatível com a MLA, então a DeepSeek escolheu outro método: usar uma atenção menor (d=128) (sem valor) como indexador.
A razão de custo assintótica = 128/576.
Além disso, o indexador usa FP8 enquanto a MLA principal usa 16 bits, então = 64/576 = 1/9.