Tan increíblemente basado que DeepSeek ganó el mejor artículo en ACL con NSA, luego, parece, no estaba satisfecho con los resultados a gran escala, descubrió una mejor arquitectura que puede usar modelos de atención completa para arrancar, publicó eso y compartió los pesos. A menudo sospechamos que Google hace lo contrario.