Было бы здорово, если бы у нас был трекер механизмов внимания с точки зрения стоимости FLOPs для данной длины последовательности. MLA безумно дорогой. Как DSA сравнивается с Qwen-next? Дизайны на основе Mamba2? Новый Shazeer Attention? Что такое 65K, 256K, 1024K DSA?