Ценовой убийца DeepSeek снова в деле, хотя производительность немного снизилась, но эта цена, как в Мишу Бин Чен, оставляет без слов. Новая модель использует DeepSeek Sparse Attention (DSA) впервые реализовала механизм тонкой разреженной внимательности, значительно повысив эффективность обучения и вывода длинных текстов практически без влияния на качество вывода модели.