Waarom dpskv3.2 spannend is voor zowel de sparse attn als de linear attn gemeenschappen van @SonglinYang4 (Waarschuwing: dit is in het Chinees) de basis samenvatting is: 1. hoewel swa en linear attn populair zijn, is het nog steeds moeilijk om de full attn laag voor bepaalde taken kwijt te raken. dus kiezen mensen voor hybride (bijv. zoals qwen-next) 2. echter, zelfs beperkte full attn lagen kunnen nog steeds duur zijn voor zeer lange ctx, dus sparse attn is nog steeds interessant om te vervangen voor de resterende full attn lagen. 3. terwijl het doel van linear is om de swa met bijna efficiëntie maar betere numeriek te verwarmen 4. Persoonlijk hou ik erg van MoBA en DSA, omdat het kan worden voortgezet en de geweldige attn-vaardigheden behoudt die zijn geleerd tijdens de full attn trainingsfasen! Een beetje promotie hier: het werk van moonshot, MoBA (geaccepteerd op NIPs 25, het is ook een eenvoudige en efficiënte sparse attn, die volledig ondersteuning biedt voor continue training, en non-parametrisch.