Dlaczego dpskv3.2 jest ekscytujący zarówno dla społeczności sparse attn, jak i linear attn od @SonglinYang4 (Uwaga: to jest po chińsku) Podstawowe podsumowanie: 1. po wszystkim, chociaż swa i linear attn są popularne, wciąż trudno jest pozbyć się warstwy pełnej uwagi w niektórych zadaniach. więc ludzie wybierają hybrydowe (np. jak qwen-next) 2. jednak nawet ograniczone warstwy pełnej uwagi mogą być kosztowne dla bardzo długiego kontekstu, więc sparse attn wciąż jest interesujące, aby zastąpić pozostałe warstwy pełnej uwagi. 3. podczas gdy celem linear jest podgrzanie swa z bliską efektywnością, ale lepszą numeryką 4. osobiście bardzo lubię MoBA i DSA, ponieważ mogą być kontynuowane w treningu i zachowują wspaniałe zdolności uwagi nabyte podczas etapów treningu pełnej uwagi! Trochę promocji tutaj: praca moonshot, MoBA (zaakceptowana na NIPs 25, jest to również prosta i efektywna sparse attn, w pełni wspierająca ciągły trening oraz non-parametric.