一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Ilya 针对他访谈的内容发推做了澄清和补充： > 访谈里有个点我没说清楚，补充一下： > 继续按现在的方法scale——堆算力、堆数据、堆训练环境——肯定还会带来改进。不会停滞，会继续变好。 > 但是，总会缺点什么重要的东西。这是在纠正一个可能的误解。访谈里他说了很多「回到研究时代」「当前方法会撞墙」的话，容易让人以为他在唱衰 scaling law，觉得继续堆算力、堆数据、堆 RL 训练会失效。他说不是这个意思，当前路径会持续带来改进，不会停滞。模型会继续变强，benchmark 会继续涨，产品会继续迭代，公司会继续赚钱。注意后面的“但是” 有些东西你怎么scale都得不到。这就像你在练短跑。继续训练，成绩还会提高，从12秒提到11秒5，再到11秒，甚至10秒9。这是真实的进步。但如果你的目标是学会飞，那不管你跑多快都没用，那需要完全不同的能力。缺的是什么? 结合访谈内容,这个"重要的缺失"指的应该是: 1. 真正的泛化能力不是在海量数据训练后能做很多任务，而是能从很少的经验中快速学到新东西，并且学到的东西在新场景下也稳定可靠。 2. 高效学习人类学开车10小时，学编程几个月就能工作。这种效率，不是靠预训练海量数据能获得的。访谈里那个“两个学生”的类比很说明问题。刷一万小时题的学生确实能继续提高竞赛成绩，从前10%到前1%到冠军，这是真实进步。但他永远成不了那个只练100小时就显示出"悟性"的学生。