Une discussion sur l'attention efficace « Le scénario le plus probable… est une fusion des deux voies. Par exemple, utiliser une attention dense pour les jetons proches afin d'assurer la qualité et des mécanismes linéaires pour les jetons éloignés afin de contrôler les coûts ; ou utiliser différentes stratégies dans différentes couches… »