Der Ex-DeepSeek-Autor von Native Sparse Attention hat den Best Paper Award der ACL gewonnen. Ich hatte das Glück, an einer Live-Vorlesung teilzunehmen, in der er enthüllte: - die Skalierung der Kontextlänge auf 1 Million - dies wird im nächsten Frontier-Modell sein Es gibt guten Grund zu glauben, dass DeepSeek V4 NSA verwenden wird.