Ціновий м'ясник DeepSeek зробив ще один крок, хоча продуктивність трохи знизилася, але ця ціна схожа на Mixue Bingcheng, що змушує людей нічого сказати. У новій моделі використовується технологія DeepSeek Sparse Attention (DSA) Вперше реалізований дрібнозернистий механізм розрідженої уваги, який значно підвищує ефективність навчання довгого тексту і міркувань, не впливаючи на вихідний ефект моделі.