Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Miltä seuraavan sukupolven LLM-arkkitehtuuri tulee näyttämään?
Tämä kysymys herättää jatkuvasti keskustelua — ja Zhihun avustaja ja kehittäjä Yuxuan tarjoaa terävän vertailun DeepSeek Sparse Attentionin (DSA) ja Native Sparse Attentionin (NSA) välillä sekä käytännön katsauksen DSA-operaattoreiden käyttöönottoon TileLangilla.
🚀 Miksi DSA > NSA:n (pitkän kontekstin tehtävissä):
Kokeiluista DSA:n lisäämisestä pieniin malleihin ja vertailusta NSA:han, DSA suoriutuu johdonmukaisesti paremmin — pääasiassa kahden keskeisen suunnitteluvalinnan ansiosta:
1️⃣ Attn-pisteiden tislaus → eksplisiittinen valvonta indeksin valinnalle
2️⃣ Token-tason harvonta lohkotason sijaan→ tarkempi ja tarkempi haku
🔍 1) Attn-pisteiden tislaus
Harva huomio riippuu oikeiden avain-arvoparien valinnasta.
DSA valvoo indeksimoduulia suoraan käyttäen todellisia tarkkaavaisuuspisteitä, sovittaen koulutuksen varsinaiseen tavoitteeseen: "valitse kriittiset tokenit."
NSA optimoi sen sijaan vain LM-häviön, eikä anna nimenomaista rajoitusta indeksin tarkkuudelle — mikä selittää sen heikomman suorituskyvyn pitkien asiakirjojen hakuvertailuissa.
🔍 2) Token- vs lohkotason harva
Tarkkuus skaalautuu laskentabudjetin mukaan: tarkempi indeksointi → parempi haku.
Token-tason indeksointi (DSA) tuottaa luonnollisesti korkeampaa tarkkuutta kuin lohkotason (NSA).
Tästä näkökulmasta NSA:n suorituskyvyn pullonkaula on odotettavissa — mielenkiintoinen kysymys: Auttaisiko block-size=8 NSA:ta saavuttamaan DSA:n?
⚙️ Todellinen haaste: DSA:n tehokas koulutus
DSA-koulutus sisältää lämmittelyä → Sparse Finetunea.
Haasteena on molempien haarojen huomiopisteiden laskeminen ja tallentaminen.
Naiivi toteutus vaatii O(n²) tallennusta — mikä kumoaa FlashAttentionin muistinsäästöt.
Jopa esisuodatus (k=2048, h=512+64) vaatii silti suuria puskureita.
📎 Koodi:
🧩 Ytimen fuusio pelastaa (Kuva 1)
Välttääkseen massiivisten väliaikaisten Attn-pisteiden tallentamisen DSA käyttää fuusioituja ytimiä.
Keskeinen temppu on yhdistää Index-Score + Top-k ytimeen:
• Ylläpitää 2K puskuria
• Laske indeksipisteet jokaiselle lohkolle...

Johtavat
Rankkaus
Suosikit

