Удивительно, насколько важна разреженность для вывода и обучения в трансформерах, даже когда она не нужна для эффективности.