也許 top-k 就是你所需要的一切。 最初它針對的是 MLP - 切換式 MoEs 現在它正針對注意力 - DSV3.2 稀疏注意力