Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Warum dpskv3.2 sowohl für die sparse attn- als auch für die lineare attn-Community spannend ist von @SonglinYang4 (Hinweis: dies ist auf Chinesisch)
Die grundlegende Zusammenfassung ist:
1. Schließlich, obwohl swa und lineare attn beliebt sind, ist es immer noch schwierig, die vollständige attn-Schicht für bestimmte Aufgaben loszuwerden. Daher wählen die Leute hybride Ansätze (z. B. wie qwen-next)
2. Allerdings können selbst begrenzte vollständige attn-Schichten für sehr lange Kontexte teuer sein, sodass sparse attn weiterhin interessant ist, um die verbleibenden vollständigen attn-Schichten zu ersetzen.
3. Während der Zweck der linearen attn darin besteht, die swa mit nahezu Effizienz, aber besseren numerischen Werten zu heizen.
4. Ich persönlich mag MoBA und DSA sehr, da sie kontinuierlich trainiert werden können und die großartigen attn-Fähigkeiten, die während der vollständigen attn-Trainingsphasen erlernt wurden, bewahren!
Ein bisschen Werbung hier: moonshot's Arbeit, MoBA (akzeptiert bei NIPs 25, es ist auch eine einfache und effiziente sparse attn, die kontinuierliches Training vollständig unterstützt und nicht-parametrisch ist.
Top
Ranking
Favoriten