有效注意力的討論 「最可能的情景……是兩條路徑的融合。例如,對於附近的標記使用密集注意力以確保質量,對於遠處的標記使用線性機制以控制成本;或者在不同的層中使用不同的策略……」