A Hipótese do Subespaço do Peso Universal Nossas descobertas oferecem novos insights sobre a organização intrínseca da informação dentro de redes profundas e levantam questões importantes sobre a possibilidade de descobrir esses subespaços universais sem a necessidade de dados extensos e recursos computacionais. ... Realizando decomposições espectrais por camada e mantendo apenas as direções principais principais, uma aproximação precisa desses subespaços universais pode ser extraída. Empiricamente, esse comportamento surge de forma ampla: em modelos totalmente ajustados e adaptadores baseados em LoRA, em modelos treinados do início, tanto em contextos generativos quanto discriminativos, e em configurações multimodais. Além disso, os subespaços aproximados se generalizam para tarefas fora de distribuição, onde projetar modelos e aprender apenas um pequeno conjunto de coeficientes é suficiente para recuperar um desempenho forte. Isso permite adaptar-se a novas tarefas sem retreinar ou armazenar pesos completos, e apoia um aprendizado multitarefa robusto, ajuste fino escalável e fusão de modelos fundamentados dentro de um único framework unificador. As implicações práticas são substanciais. Ao reutilizar um conjunto comum de direções principais por camada e aprender apenas coeficientes leves por tarefa, grandes modelos podem ser estendidos e atendidos com uma redução dramática da sobrecarga computacional, de memória e engenharia. ... Podemos efetivamente reciclar e substituir modelos pré-treinados disponíveis por um modelo universal de subespaço, com cada indivíduo representado por um conjunto esparso de coeficientes. Nesta seção, mostramos um conjunto de experimentos onde utilizamos os subespaços universais para aprender novas tarefas, congelando os componentes e simplesmente aprendendo os coeficientes usando a descida do gradiente. Descobrimos que, como estamos apenas aprendendo os coeficientes, isso reduz drasticamente o número de parâmetros necessários para treinar os novos modelos. Além disso, como esses coeficientes são simplesmente valores de escala linear, a otimização é mais suave e rápida.