Ce serait bien si nous avions un suivi des mécanismes d'attention en termes de coût en FLOPs pour une longueur de séquence donnée. MLA est incroyablement coûteux. Comment DSA se compare-t-il à Qwen-next ? Les conceptions basées sur Mamba2 ? La nouvelle attention de Shazeer ? À quoi correspondent 65K, 256K, 1024K de DSA ?