Так невероятно основано на фактах, что DeepSeek выиграл премию за лучшую статью на ACL с NSA, затем, похоже, остался недоволен результатами в масштабе, придумал лучшую архитектуру, которая может использовать полные модели внимания, опубликовал это и поделился весами. Мы часто подозреваем, что Google делает наоборот.