Una discussione sull'attenzione efficiente «Lo scenario più probabile ... è una fusione delle due strade. Ad esempio, utilizzare l'attenzione densa per i token vicini per garantire qualità e meccanismi lineari per i token distanti per controllare i costi; oppure utilizzare strategie diverse in strati diversi…»