關於變壓器,令人驚訝的是稀疏性在推理和學習中的重要性,即使在效率上並不需要它。