Tak niesamowicie oparty, że DeepSeek zdobył nagrodę za najlepszy artykuł na ACL z NSA, a następnie, wydaje się, był niezadowolony z wyników w skali, wymyślił lepszą architekturę, która może używać modeli pełnej uwagi, opublikował to i podzielił się wagami. Często podejrzewamy, że Google robi odwrotnie.