德米斯·哈萨比斯谈未来12个月: - 完全的多模态融合:像Gemini这样的模型将无缝地接收和输出文本、图像、音频和视频,交叉传播将提升推理和创造力。 - 突破性的视觉智能:像Nano Banana Pro这样的图像模型将生成高度准确的信息图,并展示接近人类的视觉理解。 - 语言与视频融合:与大型语言模型(LLMs)集成的视频模型解锁更丰富的分析、讲故事和逐步的视觉推理。 - 世界模型像Genie 3一样走向主流 - 代理变得可靠