Tellement basé que DeepSeek a remporté le prix du meilleur article à l'ACL avec la NSA, puis, il semble, était insatisfait des résultats à grande échelle, a trouvé une meilleure architecture qui peut utiliser des modèles d'attention complète pour démarrer, a publié cela et partagé les poids. Nous soupçonnons souvent que Google fait le contraire.