Potrzebujemy momentu głębokiego poszukiwania dla VLM-ów. Podobnie jak GRPO uczyniło RL normalnym i potężnym, potrzebujemy tego samego dla unifikacji modalności. Tak, Qwen-VLs są bardzo dobre, ale wydaje się, że tylko się potykamy. Innowacje mikroprojektowe. Tylko @vikhyatk ma pojęcie, prawdopodobnie.