El exautor de DeepSeek, de Native Sparse Attention, ganó el premio al mejor artículo de ACL. Tuve la suerte de asistir a una conferencia en vivo donde reveló: - aumentar la longitud del contexto a 1 millón - esto estará en el próximo modelo frontera Hay buenas razones para creer que DeepSeek V4 utilizará NSA.