O preço do "butcher" DeepSeek voltou a surpreender, embora o desempenho tenha tido uma ligeira queda, este preço é de deixar qualquer um sem palavras, como a "Mixue Bingcheng". O novo modelo utiliza a DeepSeek Sparse Attention (DSA) E pela primeira vez implementou um mecanismo de atenção esparsa de alta granularidade, alcançando um aumento significativo na eficiência de treinamento e inferência de textos longos, quase sem afetar a qualidade da saída do modelo.