在大型语言模型中的多头注意力,视觉解释: