L'auteur de DeepSeek, Native Sparse Attention, a remporté le prix du meilleur article de l'ACL. J'ai eu la chance d'assister à une conférence en direct où il a révélé : - l'augmentation de la longueur du contexte à 1 million - cela sera dans le prochain modèle de frontière Il y a de bonnes raisons de croire que DeepSeek V4 utilisera NSA.