Překvapivou věcí na transformátorech je, jak důležitá je řídkost pro inferenci a učení, i když ji nepotřebujete pro efektivitu.