VLMにはディープシークモーメントが必要です。GRPOが強化学習を普通かつ強力にしたのと同様に、モダライトを統合する際にも同じものが必要です 確かにQwen-VLはとても良いですが、私たちがただ手間をついているように見えます。マイクロデザインの革新。おそらく手がかりを持っているのは@vikhyatkだけだろう