Google DeepMind merilis makalah kunci tentang Kecerdasan Visual: "Model video adalah pembelajar dan penalaran tanpa tembakan" Penelitian menunjukkan: - Veo 3 memecahkan banyak tugas yang tidak dilatih, hanya menggunakan gambar + prompt singkat - ini berada di jalur untuk menjadi model fondasi visi tujuan umum, mirip dengan LLM untuk bahasa - penalaran itu muncul melalui rantai-bingkai (CoF) sepanjang waktu, mirip dengan CoT