Il macellaio dei prezzi DeepSeek ha colpito di nuovo, anche se le prestazioni sono leggermente diminuite, ma questo prezzo è come un negozio di tè al latte che lascia senza parole. Il nuovo modello utilizza l'attenzione sparsa DeepSeek (DSA) ha realizzato per la prima volta un meccanismo di attenzione sparsa a grana fine, ottenendo un notevole miglioramento dell'efficienza nell'addestramento e nell'inferenza di testi lunghi, senza quasi influenzare l'efficacia dell'output del modello.