Google DeepMind ha pubblicato un documento chiave sull'Intelligenza Visiva: "I modelli video sono apprendisti e ragionatori zero-shot" La ricerca mostra: - Veo 3 risolve molti compiti per cui non è stato addestrato, utilizzando solo un'immagine + un breve prompt - è sulla buona strada per diventare un modello di base per la visione di uso generale, simile agli LLM per il linguaggio - il ragionamento emerge attraverso una catena di fotogrammi (CoF) nel tempo, simile al CoT