نحن بحاجة إلى لحظة بحث عميقة لمديري VLM. مثلما جعلت GRPO التعلم الواقعي طبيعيا وقويا، نحتاج إلى نفس الشيء لتوحيد الموداليتات نعم، ملفات Qwen-VL جيدة جدا لكن يبدو وكأننا فقط نتعثر. ابتكارات التصميم الدقيق. فقط @vikhyatk لديه فكرة، على الأرجح