La chose surprenante à propos des transformateurs a été à quel point la sparsité est importante pour l'inférence et l'apprentissage, même lorsque vous n'en avez pas besoin pour l'efficacité.