Una discusión sobre la atención eficiente «El escenario más probable... es una fusión de las dos rutas. Por ejemplo, usar atención densa para tokens cercanos para asegurar calidad y mecanismos lineales para tokens lejanos para controlar costos; o usar diferentes estrategias en diferentes capas…»