Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
John Schulman & Thinking Machines: LoRA Sem Arrependimentos
LoRA substitui cada matriz de pesos W do modelo original por uma versão modificada W’=W+γBAW’=W+γBA, onde B e A são matrizes que juntas têm muito menos parâmetros do que W.
LoRA apresenta desempenho semelhante ao ajuste fino completo quando:
1. LoRA é aplicada a todas as camadas da rede, especialmente as camadas MLP/MoE que abrigam a maioria dos parâmetros.
2. LoRA não está limitada em capacidade, ou seja, o número de parâmetros treináveis excede a quantidade de informação a ser aprendida, que pode ser estimada em termos do tamanho do conjunto de dados.
Implicações: Modelos base grandes (por exemplo, de trilhões de parâmetros) podem ser personalizados a uma fração do custo de treinar um novo modelo.

Postagem da Thinking Machines:
Gemini sobre os requisitos de computação para LoRA em um modelo de fronteira - ainda formidável, mas o número de parâmetros utilizados é inferior a 1% do tamanho total do modelo (pré-treinamento).

4,31K
Top
Classificação
Favoritos