普遍權重子空間假說 我們的研究結果提供了對深度網絡內部信息固有組織的新見解,並提出了關於在不需要大量數據和計算資源的情況下發現這些普遍子空間的可能性的重要問題。 ... 通過執行逐層的譜分解並僅保留主要的主方向,可以提取這些普遍子空間的準確近似。經驗上,這種行為廣泛出現:在完全微調的模型和基於LoRA的適配器中,在從零開始訓練的模型中,在生成和判別設置中,以及在多模態配置中。此外,這些近似的子空間對於分佈外任務具有泛化能力,通過對模型進行投影並僅學習一小組係數即可恢復強大的性能。這使得在不重新訓練或存儲完整權重的情況下適應新任務成為可能,並支持穩健的多任務學習、可擴展的微調以及在單一統一框架內的原則性模型合併。 實際影響是相當大的。通過重用一組通用的逐層主方向並僅為每個任務學習輕量級係數,大型模型可以以顯著降低的計算、內存和工程開銷進行擴展和服務。 ... 我們可以有效地回收和替換可用的預訓練模型,使用一個普遍子空間模型,每個個體由一組稀疏係數表示。在本節中,我們展示了一組實驗,利用普遍子空間通過凍結組件並僅使用梯度下降學習係數來學習新任務。我們發現,由於我們僅學習係數,這大大減少了訓練新模型所需的參數數量。此外,由於這些係數僅僅是線性縮放值,優化過程更加平滑和快速。