Diskusi tentang perhatian yang efisien «Skenario yang paling mungkin ... adalah perpaduan dari dua rute. Misalnya, menggunakan perhatian padat untuk token terdekat untuk memastikan kualitas dan mekanisme linier untuk token jauh untuk mengontrol biaya; atau menggunakan strategi yang berbeda di lapisan yang berbeda...»