我們需要一個深度搜尋的時刻來針對 VLMs。就像 GRPO 使強化學習變得正常且強大一樣,我們需要對統一模態做同樣的事情。 是的,Qwen-VLs 非常好,但感覺我們只是笨拙地行動。微設計創新。只有 @vikhyatk 有線索,可能是。