Deteksi objek SOTA dengan penalaran visual yang kuat: "skateboarder mengenakan kemeja kotak-kotak".