Ex-DeepSeek 的 Native Sparse Attention 作者獲得了 ACL 最佳論文獎。 我有幸參加了一場現場講座,他透露了: - 將上下文長度擴展到 100 萬 - 這將是下一個前沿模型 有充分理由相信 DeepSeek V4 將使用 NSA。