Google DeepMind opublikował kluczowy artykuł na temat Inteligencji Wizualnej: "Modele wideo są uczniami i rozumującymi w trybie zero-shot" Badania pokazują: - Veo 3 rozwiązuje wiele zadań, do których nie był trenowany, używając tylko obrazu + krótkiego podpowiedzi - jest na dobrej drodze, aby stać się ogólnym modelem podstawowym wizji, podobnie jak LLM dla języka - jego rozumowanie pojawia się poprzez łańcuch klatek (CoF) w czasie, podobnie jak CoT