Hal yang mengejutkan tentang transformator adalah betapa pentingnya sparsity untuk inferensi dan pembelajaran, bahkan ketika Anda tidak membutuhkannya untuk efisiensi.