Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Físico, fundador de IA, Manifold Podcast
La Hipótesis del Subespacio de Peso Universal
Nuestros hallazgos ofrecen nuevas perspectivas sobre la organización intrínseca de la información dentro de redes profundas y plantean preguntas importantes sobre la posibilidad de descubrir estos subespacios universales sin la necesidad de grandes cantidades de datos y recursos computacionales.
... al realizar descomposiciones espectrales capa por capa y retener solo las direcciones principales más relevantes, se puede extraer una aproximación precisa de estos subespacios universales. Empíricamente, este comportamiento surge de manera amplia: en modelos completamente ajustados y adaptadores basados en LoRA, en modelos entrenados desde cero, en configuraciones tanto generativas como discriminativas, y en configuraciones multimodales. Además, los subespacios aproximados se generalizan a tareas fuera de distribución, donde proyectar modelos y aprender solo un pequeño conjunto de coeficientes es suficiente para recuperar un rendimiento sólido. Esto permite adaptarse a nuevas tareas sin necesidad de reentrenar o almacenar pesos completos, y apoya un aprendizaje robusto de múltiples tareas, un ajuste fino escalable y una fusión de modelos fundamentada dentro de un único marco unificador.
Las implicaciones prácticas son sustanciales. Al reutilizar un conjunto común de direcciones principales capa por capa y aprender solo coeficientes ligeros por tarea, se pueden extender y servir grandes modelos con una reducción drástica en la sobrecarga computacional, de memoria y de ingeniería.
... podemos reciclar y reemplazar efectivamente los modelos preentrenados disponibles con un modelo de subespacio universal, donde cada individuo está representado por un conjunto escaso de coeficientes. En esta sección, mostramos un conjunto de experimentos donde utilizamos los subespacios universales para aprender nuevas tareas congelando los componentes y simplemente aprendiendo los coeficientes utilizando descenso de gradiente. Encontramos que, dado que solo estamos aprendiendo los coeficientes, se reduce drásticamente el número de parámetros requeridos para entrenar los nuevos modelos. Además, dado que estos coeficientes son simplemente valores de escalado lineal, la optimización es más suave y rápida.

30
Esto acaba de aparecer en mi feed, de hace aproximadamente 1 año - ¡se ve bastante sólido! @davidpgoldman

steve hsu4 feb 2025
Esto es de mi artículo en AsiaTimes con el gran @davidpgoldman
Los tech bros "AGI-pilled" solo siguen el #6. Sus creencias, lo creas o no, subyacen a la estrategia de guerra de chips de EE. UU.: AGI está cerca, detener el progreso de la RPC en el #6 es la máxima prioridad, y renunciar a la industria de semiconductores en el proceso está bien siempre que logremos un AGI de despegue rápido primero.
Obviamente, las cosas podrían no desarrollarse de esta manera. Ya puedo ver, por experiencia de primera mano como fundador de IA, que la aplicación de la IA en la economía general está limitada por la toma de decisiones humanas, que se adapta lentamente a la nueva tecnología. Las cosas pueden tardar más de lo que los tech bros de 30 años anticipan, incluso si el progreso de la IA en sí es rápido.
La mayoría de los entusiastas de la IA no entienden muy bien el mundo físico (química, física, ingeniería dura, biología, psicología del cerebro de simio), por lo que sobreestiman cuán rápido sucederá la "traducción" (para usar el término biotecnológico) de nuevas innovaciones en la práctica. En el campo de los Estudios de Progreso, esto se refiere a menudo como el proceso de difusión de tecnología, que es mucho más lento de lo que los tecnólogos mismos esperan.

8
Richard Feynman y el yo de 19 años en mi graduación de Caltech.
Nano Banana (Gemini) limpió esta imagen - eliminando marcas de rasguños.
Original:


steve hsu26 dic 2016
Richard Feynman y el yo de 19 años en mi graduación de Caltech (Encontré esto en el álbum de fotos de mi mamá :-) #feynman

39
Parte superior
Clasificación
Favoritos