Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La hipótesis del subespacio en peso universal
Nuestros hallazgos ofrecen nuevas perspectivas sobre la organización intrínseca de la información dentro de redes profundas y plantean importantes preguntas sobre la posibilidad de descubrir estos subespacios universales sin necesidad de datos extensos y recursos computacionales.
... Realizando descomposiciones espectrales por capas y manteniendo solo las direcciones principales principales, se puede extraer una aproximación precisa de estos subespacios universales. Empíricamente, este comportamiento emerge de forma general: en modelos totalmente ajustados y adaptadores basados en LoRA, en modelos entrenados desde cero, tanto en entornos generativos como discriminativos, y en configuraciones multimodales. Además, los subespacios aproximados se generalizan a tareas fuera de distribución, donde proyectar modelos y aprender solo un pequeño conjunto de coeficientes es suficiente para recuperar un rendimiento fuerte. Esto permite adaptarse a nuevas tareas sin reentrenar ni almacenar pesos completos, y apoya un aprendizaje multitarea robusto, un ajuste fino escalable y la fusión de modelos con principios dentro de un único marco unificador.
Las implicaciones prácticas son considerables. Reutilizando un conjunto común de direcciones principales por capas y aprendiendo solo coeficientes ligeros por tarea, los grandes modelos pueden extenderse y servirse con una reducción drástica de la sobrecarga computacional, de memoria e ingeniería.
... Podemos reciclar y reemplazar eficazmente los modelos preentrenados disponibles por un modelo universal de subespacio, donde cada individuo esté representado por un conjunto disperso de coeficientes. En esta sección, mostramos un conjunto de experimentos en los que utilizamos los subespacios universales para aprender nuevas tareas congelando los componentes y simplemente aprendiendo los coeficientes usando el descenso por gradiente. Descubrimos que, dado que solo estamos aprendiendo los coeficientes, se reduce drásticamente el número de parámetros necesarios para entrenar los nuevos modelos. Además, dado que estos coeficientes son simplemente valores de escalado lineales, la optimización es más fluida y rápida.

Populares
Ranking
Favoritas
