DeepSeek 在 ACL 上与 NSA 一起获得最佳论文,真是令人难以置信,然而,似乎对大规模结果不满意,找到了一个更好的架构,可以使用完整的注意力模型,发布了这个并分享了权重。 我们常常怀疑谷歌做的是相反的。