A coisa surpreendente sobre os transformadores tem sido quão importante a esparsidade é para a inferência e o aprendizado, mesmo quando você não precisa dela para eficiência.