Нам нужен момент глубокого поиска для VLM. Подобно тому, как GRPO сделал RL нормальным и мощным, нам нужно то же самое для объединения модальностей. Да, Qwen-VLs очень хороши, но кажется, что мы просто бродим. Микродизайновые инновации. Только @vikhyatk имеет представление, вероятно.