通過文本網站學習得到文本模型,通過視頻學習得到世界模型 這個可能是最可行的路。因為視頻本質上代表眼睛看到的東西,人類就是通過眼睛構建了世界模型。