DeepSeek 在 ACL 獲得最佳論文的成就真是令人驚訝,然後似乎對大規模的結果不滿意,找到了可以使用完整注意力模型的更好架構,發表了這個並分享了權重。 我們常常懷疑 Google 則是相反的做法。