也许 top-k 就是你所需要的一切。 最初它是针对 MLP - 切换式 MoEs 现在它正针对注意力 - DSV3.2 稀疏注意力