Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hvorfor dpskv3.2 er spennende for både sparsomme attn- og lineære attn-samfunn fra @SonglinYang4 (Varsel: dette er på kinesisk)
Den grunnleggende oppsummeringen er:
1. Tross alt, selv om SWA og Linear Attn er populære, er det fortsatt vanskelig å bli kvitt hele Attn-laget for visse oppgaver. Så folk velger hybrid (f.eks. som Qwen-Next)
2. Selv begrensede Full Attn-lag kan imidlertid fortsatt være dyre for veldig lange CTX, så sparsomme ATTN er fortsatt interessant å erstatte for de gjenværende Full Attn-lagene.
3. Mens formålet med lineær er å varme opp SWA med nesten effektivitet, men bedre numerikk
4. Jeg personlig liker MoBA og DSA veldig godt, siden det kan fortsettes og bevarer de store attn-evnene som ble lært under de fulle attn-treningsstadiene!
Litt promo her: moonshots arbeid, MoBA (akseptert på NIPs 25, det er også en enkel og effektiv sparsom attn, som fullt ut støtter kontinuerlig trening og ikke-parametrisk
Topp
Rangering
Favoritter