Forse il top-k è tutto ciò di cui hai bisogno. Prima è arrivato per l'MLP - MoEs in stile switch Ora sta arrivando per l'attenzione - attenzione sparsa DSV3.2