Google DeepMind đã phát hành một tài liệu quan trọng về Trí tuệ Hình ảnh: "Các mô hình video là những người học và lý luận không cần huấn luyện" Nghiên cứu cho thấy: - Veo 3 giải quyết nhiều nhiệm vụ mà nó không được huấn luyện, chỉ sử dụng một hình ảnh + một lời nhắc ngắn - nó đang trên đường trở thành một mô hình nền tảng thị giác đa năng, tương tự như LLM cho ngôn ngữ - lý luận của nó xuất hiện thông qua một chuỗi khung (CoF) theo thời gian, tương tự như CoT.