Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Perché dpskv3.2 è entusiasmante per le comunità di attn sparsa e attn lineare da @SonglinYang4 (Avviso: questo è in cinese)
il riassunto di base è:
1. dopo tutto, anche se swa e attn lineare sono popolari, è ancora difficile liberarsi del layer di attn completo per alcuni compiti. quindi le persone scelgono ibrido (ad esempio come qwen-next)
2. tuttavia, anche i layer di attn completo limitati possono essere costosi per contesti molto lunghi, quindi l'attn sparsa è ancora interessante da sostituire per i rimanenti layer di attn completo.
3. mentre lo scopo per l'attn lineare è riscaldare lo swa con quasi efficienza ma migliori numeri
4. Personalmente mi piacciono molto MoBA e DSA, poiché possono essere addestrati continuamente e preservano le grandi capacità di attn apprese durante le fasi di addestramento dell'attn completo!
Un po' di promozione qui: il lavoro di moonshot, MoBA (accettato a NIPs 25, è anche un'attn sparsa semplice ed efficiente, che supporta completamente l'addestramento continuo e non parametrico.
Principali
Ranking
Preferiti