Ex-DeepSeek-forfatter av Native Sparse Attention vant prisen for beste artikkel i ACL. Jeg var heldig nok til å delta på en direktesendt forelesning der han avslørte: - Skalere opp kontekstlengden til 1 million - Dette vil være i neste Frontier-modell Det er god grunn til å tro at DeepSeek V4 vil bruke NSA.