通过文本网站学习得到文本模型,通过视频学习得到世界模型 这个可能是最可行的路。因为视频本质上代表眼睛看到的东西,人类就是通过眼睛构建了世界模型。