Ilya 針對他訪談的內容發推做了澄清和補充: > 訪談裡有個點我沒說清楚,補充一下: > 繼續按現在的方法scale——堆算力、堆數據、堆訓練環境——肯定還會帶來改進。不會停滯,會繼續變好。 > 但是,總會缺點什麼重要的東西。 這是在糾正一個可能的誤解。訪談裡他說了很多「回到研究時代」「當前方法會撞牆」的話,容易讓人以為他在唱衰 scaling law,覺得繼續堆算力、堆數據、堆 RL 訓練會失效。 他說不是這個意思,當前路徑會持續帶來改進,不會停滯。模型會繼續變強,benchmark 會繼續漲,產品會繼續迭代,公司會繼續賺錢。 注意後面的“但是” 有些東西你怎麼scale都得不到。 這就像你在練短跑。繼續訓練,成績還會提高,從12秒提到11秒5,再到11秒,甚至10秒9。這是真實的進步。但如果你的目標是學會飛,那不管你跑多快都沒用,那需要完全不同的能力。 缺的是什麼? 結合訪談內容,這個"重要的缺失"指的應該是: 1. 真正的泛化能力 不是在海量數據訓練後能做很多任務,而是能從很少的經驗中快速學到新東西,並且學到的東西在新場景下也穩定可靠。 2. 高效學習 人類學開車10小時,學編程幾個月就能工作。這種效率,不是靠預訓練海量數據能獲得的。 訪談裡那個“兩個學生”的類比很說明問題。刷一萬小時題的學生確實能繼續提高競賽成績,從前10%到前1%到冠軍,這是真實進步。但他永遠成不了那個只練100小時就顯示出"悟性"的學生。