DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Por qué dpskv3.2 es emocionante tanto para las comunidades de atención dispersa como para las de atención lineal de @SonglinYang4 (Alerta: esto está en chino) el resumen básico es: 1. después de todo, aunque swa y la atención lineal son populares, sigue siendo difícil deshacerse de la capa de atención completa para ciertas tareas. así que la gente elige híbridos (por ejemplo, como qwen-next) 2. sin embargo, incluso las capas de atención completa limitadas pueden seguir siendo costosas para contextos muy largos, por lo que la atención dispersa sigue siendo interesante para reemplazar las capas restantes de atención completa. 3. mientras que el propósito de la atención lineal es calentar el swa con casi la misma eficiencia pero con mejores números 4. personalmente me gusta mucho MoBA y DSA, ya que se puede seguir entrenando y preserva las grandes habilidades de atención aprendidas durante las etapas de entrenamiento de atención completa! Un poco de promoción aquí: el trabajo de moonshot, MoBA (aceptado en NIPs 25, también es una atención dispersa simple y eficiente, que apoya completamente el entrenamiento continuo y es no paramétrico.

Parte superior

Clasificación

Favoritos