如果我是 a16z、yc 或 sequoia,我会积极投资于那些正在构建新颖方式来收集和注释现实世界数据的初创公司。 > 数十亿小时的驾驶数据 > 工厂工人与设备和重型机械的互动 > 深入的方言和文化理解的音频分割 > 湿实验室实验数据 > 在计算规模下持续收集和注释代理痕迹 当我们构建 LLM 时,大部分数据已经存在于互联网上。我们只需抓取、清理和扩展。但随着我们朝着世界基础模型的方向发展,瓶颈是高质量、现实世界的、良好注释的数据。 而且注释质量很重要。以下两者之间有巨大的差异: “树上的苹果” 和 “树上的成熟苹果。风速为每小时 2 英里。温度约为 18°C。” 问题很简单。你实际上能捕捉到多少世界? 今天,LLM 知道苹果因重力而落下,而不是因为它们理解因果关系,而是因为它们非常好地理解语言相关性。理解因果结构是接下来的事情。 如果我在朝着那个未来努力,我会将数据收集的重心放在印度和其他南亚及东南亚地区。我会部署硬件,收集数千小时的人类活动数据、健康信号和生命体征,并持续运行注释管道。昼夜不停。 如果我是 a16z,我会资助创始人来做这件事。 我可能会有冲动自己去做。