トランスフォーマーの驚くべき点は、効率のためにスパース性が必要ない場合でも、推論と学習にとってスパース性がいかに重要であるかということです。