價格屠夫 DeepSeek 又出手了,雖然性能有一點點下滑,但這價格就像蜜雪冰城讓人無話可說。 新模型使用 DeepSeek Sparse Attention(DSA) 首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現了長文本訓練和推理效率的大幅提升。