Tão incrivelmente baseado que o DeepSeek ganhou o prêmio de melhor artigo na ACL com a NSA, depois, ao que parece, ficou insatisfeito com os resultados em escala, descobriu uma arquitetura melhor que pudesse usar modelos de atenção total, publicou isso e compartilhou pesos. Frequentemente suspeitamos que o Google faz o oposto