DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Pourquoi dpskv3.2 est excitant pour les communautés d'attention sparse et d'attention linéaire de @SonglinYang4 (Alerte : ceci est en chinois) le résumé de base est : 1. après tout, bien que swa et l'attention linéaire soient populaires, il est toujours difficile de se débarrasser de la couche d'attention complète pour certaines tâches. donc les gens choisissent un hybride (par exemple, comme qwen-next) 2. cependant, même des couches d'attention complète limitées peuvent encore être coûteuses pour des ctx très longs, donc l'attention sparse reste intéressante pour remplacer les couches d'attention complète restantes. 3. tandis que le but de l'attention linéaire est de chauffer le swa avec une efficacité proche mais de meilleures valeurs numériques 4. Personnellement, j'aime beaucoup MoBA et DSA, car cela peut être entraîné en continu et préserve les grandes capacités d'attention acquises lors des étapes d'entraînement d'attention complète ! Un petit promo ici : le travail de moonshot, MoBA (accepté à NIPs 25, c'est aussi une attention sparse simple et efficace, entièrement compatible avec l'entraînement continu, et non paramétrique.

Meilleurs

Classement

Favoris