Peut-être que le top-k est tout ce dont vous avez besoin. D'abord, ça a concerné les MLP - MoEs de style switch Maintenant, ça s'attaque à l'attention - attention sparse DSV3.2