Chúng ta cần một khoảnh khắc deepseek cho VLMs. Tương tự như cách mà GRPO đã làm cho RL trở nên bình thường và mạnh mẽ, chúng ta cần điều tương tự để thống nhất các modalites. Vâng, Qwen-VLs rất tốt nhưng có vẻ như chúng ta chỉ đang lúng túng. Những đổi mới thiết kế vi mô. Chỉ có @vikhyatk là có manh mối, có lẽ.