Ex-DeepSeek 的 Native Sparse Attention 作者获得了 ACL 最佳论文奖。 我有幸参加了一场现场讲座,他透露了: - 将上下文长度扩展到 100 万 - 这将是下一个前沿模型 有充分理由相信 DeepSeek V4 将使用 NSA。