Tão incrivelmente baseado que o DeepSeek ganhou o melhor artigo na ACL com a NSA, depois, parece, ficou insatisfeito com os resultados em escala, descobriu uma arquitetura melhor que pode usar modelos de atenção total para iniciar, publicou isso e compartilhou os pesos. Suspeitamos frequentemente que o Google faz o oposto.