熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jeffrey Emanuel
剛剛閱讀了Yann LeCun和Randall Balestriero的新LeJEPA論文。我一直很好奇Yann最近在做什麼,特別是考慮到他對LLMs的所有批評(我不同意這些批評,因為我認為LLMs會持續改進,並且會很快帶我們進入ASI)。
無論如何,X上已經有幾個關於這篇論文及其介紹的討論串。簡而言之,這是一種有原則、理論上有根據且簡約的自我監督學習方法,取代了防止模式崩潰的複雜雜亂的臨時性、粗糙的啟發式方法,而模式崩潰是自我監督學習的禍根。
這是模型出錯的地方,開始將所有輸入映射到幾乎相同的嵌入或狹窄的嵌入子空間,將問題的所有豐富性壓縮成一個病態簡單且錯誤的對應。
新方法的第一個支柱是他們證明了各向同性高斯分佈獨特地最小化最壞情況下的下游預測風險。
當我讀到這一點時,我立刻想到了CMA-ES,這是當你無法訪問你試圖最小化的函數的梯度時,最佳的黑箱優化算法,但只能進行(昂貴/緩慢的)函數評估。
Nikolaus Hansen自1996年引入CMA-ES以來一直在研究它。我一直對這種方法感到著迷,並在2011年用它成功地高效探索深度神經網絡的超參數,而不是進行低效的網格搜索。
無論如何,我提到這一點的原因是因為這種方法與LeJEPA的核心之間存在著驚人的平行和深刻的聯繫。
CMA-ES說:從各向同性高斯開始,因為它是給定方差約束下的最大熵(最少偏見)分佈。然後調整協方差以學習問題的幾何形狀。
LeJEPA說:保持各向同性高斯,因為它是對未知未來任務的最大熵(最少偏見)分佈。
兩者都認識到,在不確定性下,各向同性是最佳的,原因有三:
最大熵原則;在所有具有固定方差的分佈中,各向同性高斯具有最大熵;即,它做出最少的假設。
沒有方向性偏見;所有方向的方差相等意味著你不會預先承諾任何特定的問題結構。
你獲得最壞情況的最佳性;在所有可能的問題幾何中最小化最大遺憾。
那麼,區別在哪裡?這取決於適應的時機。CMA-ES可以在優化過程中進行適應;它開始是各向同性的,但隨著學習特定的優化地形而變得各向異性。
相比之下,LeJEPA必須保持各向同性,因為它正在為尚未見過的未知下游任務做準備。
這種平行表明LeJEPA正在將優化理論中的基本原則應用於表示學習。它本質上是在說:
“黑箱優化的最佳搜索分佈也是轉移學習的最佳嵌入分佈。”
這是有道理的,因為這兩個問題都涉及導航未知的地形;對於CMA-ES來說,這是未知的優化地形;對於LeJEPA來說,這是未知的下游任務空間。
這種差異讓我想知道:我們能否有“自適應LeJEPA”,它從各向同性開始,但在我們知道下游任務後調整其嵌入分佈,類似於CMA-ES在優化過程中的適應?這就像是為特定任務家族進行元學習的正確各向異性。
無論如何,我想分享我的想法。看到這些不同領域之間的聯繫真是令人著迷。黑箱優化社群一直與深度學習社群相對獨立,並且那裡的交叉授粉不多。
這是有道理的,因為如果你有梯度,你不使用它就太瘋狂了。但這之間有著強烈的聯繫。

25.7K
你可以利用 codex 和 GPT-5,將一個真正漂亮、流暢、原生用 Swift 編寫的 iOS 應用程式開發到大約 95% 的程度。但當你想把它放到 AppStore 時,就需要設置簽名的證書和其他所有這些東西。
在那個時候,你就無法再從命令行以程式化的方式做所有事情,必須開始在 Xcode 的 GUI 中進行操作,這簡直是一場噩夢。
UI 模式糟糕透頂,你需要猜測每樣東西的位置。即使 AI 告訴你一步一步該怎麼做,在這個混亂且糟糕的介面中找到東西也是一個巨大的認知負擔。
Apple 應該真的暫停所有其他開發工具的工作,直到他們擁有一個完全完整、良好文檔(在一個 markdown 文件中!)的 CLI 和 API,這可以被 AI 編碼代理用於創建和發布應用程式的所有相關工作。

10.97K
熱門
排行
收藏


