A coisa surpreendente sobre os transformadores tem sido a importância da dispersão para inferência e aprendizado, mesmo quando você não precisa dela para eficiência.