Alangkah baiknya jika kita memiliki pelacak mekanisme perhatian dalam hal biaya FLOP untuk panjang urutan tertentu. MLA sangat mahal. Bagaimana penumpukan DSA terhadap Qwen-next? Desain berbasis Mamba2? Perhatian Shazeer Baru? Apa yang setara dengan 65K, 256K, 1024K DSA?