Miksi dpskv3.2 on jännittävä sekä harvoille attn- että lineaarisille attn-yhteisöille @SonglinYang4 (Varoitus: tämä on kiinaksi) Perusyhteenveto on seuraava: 1. Loppujen lopuksi, vaikka SWA ja lineaarinen attn ovat suosittuja, on silti vaikea päästä eroon täydestä attn-kerroksesta tietyissä tehtävissä. Joten ihmiset valitsevat hybridin (esim. qwen-next) 2. Kuitenkin jopa rajoitetut täydet attn-kerrokset voivat silti olla kalliita erittäin pitkille CTX:ille, joten harva attn on silti mielenkiintoinen korvata jäljellä olevilla Full Attn-kerroksilla. 3. Lineaarisen tarkoituksena on lämmittää SWA:ta lähes tehokkaasti, mutta paremmalla numeerisuudella 4. Pidän henkilökohtaisesti MoBA:sta ja DSA:sta erittäin paljon, koska niitä voidaan jatkaa harjoittelua ja ne säilyttävät täyden attn-koulutusvaiheen aikana opitut suuret attn-kyvyt! Hieman promoa tässä: moonshotin työ, MoBA (hyväksytty NIPs 25:ssä, se on myös yksinkertainen ja tehokas harva attn, joka tukee täysin jatkuvaa koulutusta ja ei-parametrinen