通用权重子空间假设 我们的研究提供了关于深度网络内部信息固有组织的新见解,并提出了关于在不需要大量数据和计算资源的情况下发现这些通用子空间的可能性的重要问题。 ... 通过执行逐层谱分解并仅保留主要主方向,可以提取这些通用子空间的准确近似。经验上,这种行为广泛出现:在完全微调的模型和基于LoRA的适配器中,在从头训练的模型中,在生成和判别设置中,以及在多模态配置中。此外,近似的子空间可以推广到分布外任务,在这些任务中,仅通过投影模型和学习一小组系数就足以恢复强大的性能。这使得在不重新训练或存储完整权重的情况下适应新任务成为可能,并支持稳健的多任务学习、可扩展的微调和在单一统一框架内的原则性模型合并。 实际影响是巨大的。通过重用一组通用的逐层主方向,并为每个任务学习仅轻量级的系数,大型模型可以在计算、内存和工程开销大幅减少的情况下扩展和服务。 ... 我们可以有效地回收和替换可用的预训练模型,使用一个通用子空间模型,每个个体由一组稀疏系数表示。在本节中,我们展示了一组实验,利用通用子空间通过冻结组件并仅使用梯度下降学习系数来学习新任务。我们发现,由于我们仅学习系数,这大大减少了训练新模型所需的参数数量。此外,由于这些系数仅是线性缩放值,优化过程更加平滑和快速。