Google DeepMind släppte ett viktigt dokument om visuell intelligens: "Videomodeller lär sig och resonerar med nollsteg" Forskningen visar: - Veo 3 löser många uppgifter som den inte är tränad för, med hjälp av endast en bild + en kort uppmaning - det är på väg att bli en allmän vision foundation-modell, liknande LLM för språk - it-resonemang uppstår via en kedja av ramar (CoF) över tid, liknande CoT