Uma discussão sobre atenção eficiente «O cenário mais provável... é uma fusão das duas rotas. Por exemplo, usar atenção densa para tokens próximos para garantir qualidade e mecanismos lineares para tokens distantes para controlar custos; ou usar diferentes estratégias em diferentes camadas...»