Incluso con gradientes de lotes completos, los optimizadores DL desafían la teoría clásica de la optimización, ya que operan al *borde de la estabilidad*.
Con @alex_damian_, introducimos los "flujos centrales": una herramienta teórica para analizar estas dinámicas que hace predicciones cuantitativas precisas sobre las NN reales.
Personas: los robots están reemplazando a la humanidad.
Real: espectáculo de danza robótica en una conferencia de robótica líder sin mover un dedo del pie.
Como era de esperar, NSA no es compatible con MLA, por lo que DeepSeek eligió otro método: usar una atención más pequeña (d = 128) (sin valor) como indexador.
Relación de costos asintóticos = 128/576.
Además, el indexador usa FP8 mientras que el MLA principal usa 16 bits, por lo que = 64/576 = 1/9.