Google DeepMind julkaisi keskeisen paperin visuaalisesta älykkyydestä: "Videomallit ovat nollalaukauksen oppijoita ja päättelijöitä" Tutkimus osoittaa: - Veo 3 ratkaisee monia tehtäviä, joihin sitä ei ole koulutettu, käyttämällä vain kuvaa + lyhyttä kehotetta - se on oikealla tiellä yleiskäyttöiseksi visiopohjamalliksi, joka on samanlainen kuin kielen LLM:t - it-päättely syntyy kehysketjun (CoF) kautta ajan kuluessa, kuten CoT