Miltä seuraavan sukupolven LLM-arkkitehtuuri tulee näyttämään? Tämä kysymys herättää jatkuvasti keskustelua — ja Zhihun avustaja ja kehittäjä Yuxuan tarjoaa terävän vertailun DeepSeek Sparse Attentionin (DSA) ja Native Sparse Attentionin (NSA) välillä sekä käytännön katsauksen DSA-operaattoreiden käyttöönottoon TileLangilla. 🚀 Miksi DSA > NSA:n (pitkän kontekstin tehtävissä): Kokeiluista DSA:n lisäämisestä pieniin malleihin ja vertailusta NSA:han, DSA suoriutuu johdonmukaisesti paremmin — pääasiassa kahden keskeisen suunnitteluvalinnan ansiosta: 1️⃣ Attn-pisteiden tislaus → eksplisiittinen valvonta indeksin valinnalle 2️⃣ Token-tason harvonta lohkotason sijaan→ tarkempi ja tarkempi haku 🔍 1) Attn-pisteiden tislaus Harva huomio riippuu oikeiden avain-arvoparien valinnasta. DSA valvoo indeksimoduulia suoraan käyttäen todellisia tarkkaavaisuuspisteitä, sovittaen koulutuksen varsinaiseen tavoitteeseen: "valitse kriittiset tokenit." NSA optimoi sen sijaan vain LM-häviön, eikä anna nimenomaista rajoitusta indeksin tarkkuudelle — mikä selittää sen heikomman suorituskyvyn pitkien asiakirjojen hakuvertailuissa. 🔍 2) Token- vs lohkotason harva Tarkkuus skaalautuu laskentabudjetin mukaan: tarkempi indeksointi → parempi haku. Token-tason indeksointi (DSA) tuottaa luonnollisesti korkeampaa tarkkuutta kuin lohkotason (NSA). Tästä näkökulmasta NSA:n suorituskyvyn pullonkaula on odotettavissa — mielenkiintoinen kysymys: Auttaisiko block-size=8 NSA:ta saavuttamaan DSA:n? ⚙️ Todellinen haaste: DSA:n tehokas koulutus DSA-koulutus sisältää lämmittelyä → Sparse Finetunea. Haasteena on molempien haarojen huomiopisteiden laskeminen ja tallentaminen. Naiivi toteutus vaatii O(n²) tallennusta — mikä kumoaa FlashAttentionin muistinsäästöt. Jopa esisuodatus (k=2048, h=512+64) vaatii silti suuria puskureita. 📎 Koodi: 🧩 Ytimen fuusio pelastaa (Kuva 1) Välttääkseen massiivisten väliaikaisten Attn-pisteiden tallentamisen DSA käyttää fuusioituja ytimiä. Keskeinen temppu on yhdistää Index-Score + Top-k ytimeen: • Ylläpitää 2K puskuria • Laske indeksipisteet jokaiselle lohkolle...