變壓器中的靜默特徵學習 這是我本週讀過的最迷人的論文之一。 讓我解釋一下: 它主張損失曲線可能會誤導我們對模型學習內容的理解。 監控神經網絡訓練的默認方法依賴於損失作為主要的進度衡量指標。如果損失保持平坦,則沒有任何進展。如果損失下降,則表示正在學習。 但這一假設在算法任務上失效。 這項新研究在十個基礎算法任務上訓練了變壓器,並發現了「靜默特徵」:在損失看似停滯的情況下發展的內部表示。 他們發現模型在這些步驟改善輸出性能之前,早已學會了中間計算步驟。進行加法的進位位元、BFS中的隊列成員資格、乘法中的部分積。這些特徵在延長的平臺期間出現,然後突然結合以解決任務。 研究人員探查了二進制算術(加法、乘法)、圖算法(BFS、最短路徑、拓撲排序、最小生成樹)和序列優化(最大子數組、活動選擇)中的內部表示。 六個任務顯示出明顯的兩階段轉變:持續的停滯隨後是突然的性能提升。 消融實驗確認了因果關係。從64位加法模型中移除進位特徵導致準確率下降75.1%。消融BFS中的隊列成員資格使準確率下降43.6%。 算法任務需要多個子例程共同運作。單個正確的組件在所有部分對齊之前不會降低損失。模型在平坦的損失曲線下積累潛在能力。 看來交叉熵損失是一個不完整的診斷工具。在指標看似停滯的情況下,實質性的內部學習仍然可以發生。這促使我們尋求超越損失曲線的更豐富的監控工具。 🔖 (收藏它) 論文: