John Schulman & Thinking Machines: LoRA Sem Arrependimentos LoRA substitui cada matriz de pesos W do modelo original por uma versão modificada W’=W+γBAW’=W+γBA, onde B e A são matrizes que juntas têm muito menos parâmetros do que W. LoRA apresenta desempenho semelhante ao ajuste fino completo quando: 1. LoRA é aplicada a todas as camadas da rede, especialmente as camadas MLP/MoE que abrigam a maioria dos parâmetros. 2. LoRA não está limitada em capacidade, ou seja, o número de parâmetros treináveis excede a quantidade de informação a ser aprendida, que pode ser estimada em termos do tamanho do conjunto de dados. Implicações: Modelos base grandes (por exemplo, de trilhões de parâmetros) podem ser personalizados a uma fração do custo de treinar um novo modelo.
Postagem da Thinking Machines: Gemini sobre os requisitos de computação para LoRA em um modelo de fronteira - ainda formidável, mas o número de parâmetros utilizados é inferior a 1% do tamanho total do modelo (pré-treinamento).
4,31K