当一个 LLM 进行计算时,它的注意力机制会创建一个巨大的瞬态张量场,产生因果影响。线性层塑造了它的几何形状。这就是 LLM 的 "思维" - 对我们来说是不可理解的。 这样的过程并不明显,无法产生主观体验。