关于高效注意力的讨论 «最可能的情况是……两条路径的融合。例如,对于附近的标记使用密集注意力以确保质量,对于远处的标记使用线性机制以控制成本;或者在不同的层中使用不同的策略……»