非常に基礎が強すぎて、DeepSeekはNSAと共にACLで最優秀論文賞を受賞しましたが、その後、大規模な結果に満足できず、フルアテンションモデルを活用できるより良いアーキテクチャを考案し、それを発表し、重みを共有したようです。 私たちはしばしばGoogleが逆のことをしているのではないかと疑っています