Ex-DeepSeek, författare till Native Sparse Attention, vann pris för bästa artikel i ACL. Jag hade turen att delta i en direktsänd föreläsning där han avslöjade: - Skala upp kontextlängden till 1 miljon - Detta kommer att finnas i Next Frontier-modellen Det finns goda skäl att tro att DeepSeek V4 kommer att använda NSA.