John Schulman e Máquinas de Pensar: LoRA Sem Arrependimento LoRA substitui cada matriz de peso W do modelo original por uma versão modificada W'=W+γBAW'=W+γBA, onde B e A são matrizes que juntas têm muito menos parâmetros que W. O LoRA funciona de forma semelhante ao ajuste fino completo quando: 1. LoRA é aplicado a todas as camadas da rede, especialmente as camadas MLP/MoE que abrigam a maioria dos parâmetros. 2. LoRA não tem capacidade restrita, ou seja, o número de parâmetros treináveis excede a quantidade de informações a serem aprendidas, que podem ser estimadas em termos de tamanho do conjunto de dados. Implicações: Modelos básicos grandes (por exemplo, trilhões de parâmetros) podem ser personalizados por uma fração do custo de treinamento de um novo modelo.
Máquinas de pensar postar: Gemini sobre os requisitos de computação para LoRA em um modelo de fronteira - ainda formidável, mas o número de parâmetros usados é inferior a 1% do tamanho total do modelo (pré-treinamento).
8,67K