Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Físico, fundador de IA, Manifold Podcast
Para los no expertos: los modelos de frontera han sido entrenados en una gran parte de todo el conocimiento humano, incluidas las matemáticas avanzadas, la física, la medicina y la codificación. Tienen enormes capacidades latentes.
¿Puede un proceso de "ajuste" relativamente económico (en este caso, LoRA) adaptar el modelo para hacerlo más útil para un caso de uso específico?
Eso es lo que Thinking Machines está explorando. Tenga en cuenta que esto se basa en el acceso a modelos de frontera de código abierto.

steve hsuhace 15 horas
John Schulman y Máquinas Pensantes: LoRA Sin Pesar
LoRA reemplaza cada matriz de peso W del modelo original con una versión modificada W'=W+γBAW'=W+γBA, donde B y A son matrices que juntas tienen muchos menos parámetros que W.
LoRA funciona de manera similar al ajuste completo cuando:
1. LoRA se aplica a todas las capas de la red, especialmente a las capas MLP/MoE que albergan la mayoría de los parámetros.
2. LoRA no tiene limitaciones de capacidad, es decir, el número de parámetros entrenables excede la cantidad de información que se debe aprender, que se puede estimar en términos de tamaño del conjunto de datos.
Implicaciones: Los modelos base grandes (por ejemplo, billones de parámetros) se pueden personalizar a una fracción del costo de entrenar un nuevo modelo.

2.07K
Sí, el gobierno de la República Popular China deliberadamente bajo informes sobre la economía. Es un remanente de la era anterior de "esconderse y esperar".
Por esto no podemos culpar a los economistas occidentales, excepto que deberían tener más sentido común para verificar dos veces los números para ver si son realistas.
(La situación es bastante compleja porque a veces algunas de sus cifras de crecimiento pueden ser exageradas, mientras que en las cifras oficiales del PIB no informan de cosas más significativas como el valor de los servicios, la vivienda, etc.)

L.Whace 13 horas
El gobierno nacional no debería querer superar a Estados Unidos en PIB declarado oficialmente.
Ahora la ubicación es buena.
El gobierno de Estados Unidos tampoco quiere que China supere a Estados Unidos en términos de PIB.
Ahora la ubicación es buena.
18.75K
John Schulman y Máquinas Pensantes: LoRA Sin Pesar
LoRA reemplaza cada matriz de peso W del modelo original con una versión modificada W'=W+γBAW'=W+γBA, donde B y A son matrices que juntas tienen muchos menos parámetros que W.
LoRA funciona de manera similar al ajuste completo cuando:
1. LoRA se aplica a todas las capas de la red, especialmente a las capas MLP/MoE que albergan la mayoría de los parámetros.
2. LoRA no tiene limitaciones de capacidad, es decir, el número de parámetros entrenables excede la cantidad de información que se debe aprender, que se puede estimar en términos de tamaño del conjunto de datos.
Implicaciones: Los modelos base grandes (por ejemplo, billones de parámetros) se pueden personalizar a una fracción del costo de entrenar un nuevo modelo.

4.3K
Populares
Ranking
Favoritas