Uma discussão sobre atenção eficiente «O cenário mais provável ... é uma fusão das duas rotas. Por exemplo, usar atenção densa para tokens próximos para garantir qualidade e mecanismos lineares para tokens distantes para controlar custos; ou usando estratégias diferentes em camadas diferentes...»