John Schulman y Thinking Machines: LoRA sin arrepentimientos LoRA reemplaza cada matriz de pesos W del modelo original con una versión modificada W’=W+γBA, donde B y A son matrices que juntas tienen muchos menos parámetros que W. LoRA funciona de manera similar al ajuste fino completo cuando: 1. LoRA se aplica a todas las capas de la red, especialmente las capas MLP/MoE que albergan la mayoría de los parámetros. 2. LoRA no está limitada en capacidad, es decir, el número de parámetros entrenables excede la cantidad de información que se debe aprender, lo cual se puede estimar en términos del tamaño del conjunto de datos. Implicaciones: Los modelos base grandes (por ejemplo, de un billón de parámetros) pueden ser personalizados a una fracción del costo de entrenar un nuevo modelo.
Publicación de Thinking Machines: Gemini sobre los requisitos de computación para LoRA en un modelo de frontera - sigue siendo formidable, pero el número de parámetros utilizados es menos del 1% del tamaño total del modelo (preentrenamiento).
4,31K