熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
剛剛閱讀了Yann LeCun和Randall Balestriero的新LeJEPA論文。我一直很好奇Yann最近在做什麼,特別是考慮到他對LLMs的所有批評(我不同意這些批評,因為我認為LLMs會持續改進,並且會很快帶我們進入ASI)。
無論如何,X上已經有幾個關於這篇論文及其介紹的討論串。簡而言之,這是一種有原則、理論上有根據且簡約的自我監督學習方法,取代了防止模式崩潰的複雜雜亂的臨時性、粗糙的啟發式方法,而模式崩潰是自我監督學習的禍根。
這是模型出錯的地方,開始將所有輸入映射到幾乎相同的嵌入或狹窄的嵌入子空間,將問題的所有豐富性壓縮成一個病態簡單且錯誤的對應。
新方法的第一個支柱是他們證明了各向同性高斯分佈獨特地最小化最壞情況下的下游預測風險。
當我讀到這一點時,我立刻想到了CMA-ES,這是當你無法訪問你試圖最小化的函數的梯度時,最佳的黑箱優化算法,但只能進行(昂貴/緩慢的)函數評估。
Nikolaus Hansen自1996年引入CMA-ES以來一直在研究它。我一直對這種方法感到著迷,並在2011年用它成功地高效探索深度神經網絡的超參數,而不是進行低效的網格搜索。
無論如何,我提到這一點的原因是因為這種方法與LeJEPA的核心之間存在著驚人的平行和深刻的聯繫。
CMA-ES說:從各向同性高斯開始,因為它是給定方差約束下的最大熵(最少偏見)分佈。然後調整協方差以學習問題的幾何形狀。
LeJEPA說:保持各向同性高斯,因為它是對未知未來任務的最大熵(最少偏見)分佈。
兩者都認識到,在不確定性下,各向同性是最佳的,原因有三:
最大熵原則;在所有具有固定方差的分佈中,各向同性高斯具有最大熵;即,它做出最少的假設。
沒有方向性偏見;所有方向的方差相等意味著你不會預先承諾任何特定的問題結構。
你獲得最壞情況的最佳性;在所有可能的問題幾何中最小化最大遺憾。
那麼,區別在哪裡?這取決於適應的時機。CMA-ES可以在優化過程中進行適應;它開始是各向同性的,但隨著學習特定的優化地形而變得各向異性。
相比之下,LeJEPA必須保持各向同性,因為它正在為尚未見過的未知下游任務做準備。
...

熱門
排行
收藏

