Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuevo artículo: Alineación de valores en grandes modelos de lenguaje
Un nuevo estudio profundiza en el proceso posterior a la capacitación de los LLM, revelando cómo y cuándo estos modelos adoptan posturas sobre temas polémicos como la inmigración, el aborto y más. Contrariamente a la creencia popular, la investigación muestra que la alineación de valores no está determinada principalmente por técnicas avanzadas de optimización de preferencias, sino que surge temprano durante el ajuste fino supervisado (SFT).
El estudio rastrea las "derivas de valor", es decir, los cambios en la postura de un modelo al responder a las indicaciones de sondeo de valor a lo largo de la canalización posterior al entrenamiento.
Usando modelos como Llama-3 y Qwen-3, los investigadores examinaron conjuntos de datos populares como WildChat y Alpaca. Descubrieron que la SFT es la fuerza dominante para establecer el perfil de valor de un modelo. Por ejemplo, el entrenamiento en WildChat condujo a un 95% de respuestas neutrales u opuestas sobre las indicaciones relacionadas con la inmigración, mientras que los conjuntos de datos de Alpaca inclinaron los modelos hacia posturas de apoyo.
Estos cambios ocurren rápidamente y temprano en el proceso, lo que destaca cómo incluso los conjuntos de datos no diseñados explícitamente para el aprendizaje de valores pueden influir profundamente en los resultados.
Se esperaba que los métodos de optimización de preferencias, como la optimización de preferencias directas (DPO) y la optimización de políticas proximales (PPO), refinaran aún más estos valores. Sin embargo, el análisis descubrió desviaciones insignificantes cuando se utilizaron conjuntos de datos de preferencias estándar.
¿La razón? Las respuestas preferidas y rechazadas en estos conjuntos de datos a menudo exhiben diferencias mínimas en los valores, lo que proporciona una señal débil para el cambio. Los gráficos de intervalos de confianza en temas como el aborto confirmaron que los modelos conservan en gran medida sus perfiles aprendidos por SFT después de la optimización.
Para probar si la optimización de preferencias podría impulsar cambios significativos, los investigadores crearon conjuntos de datos sintéticos con "brechas de valor" diseñadas entre las respuestas elegidas y rechazadas.
Aquí, PO demostró ser eficaz para remodelar posturas, pero los resultados variaron según el algoritmo: PPO y DPO arrojaron resultados diferentes a pesar de datos idénticos. Esto subraya la interacción entre los conjuntos de datos y los algoritmos en la alineación de valores.
La alineación de valores es una trayectoria dinámica moldeada por cada paso posterior a la capacitación. Sin un rastreo transparente de estas derivas, los desarrolladores corren el riesgo de sesgos no deseados.
Es por eso que mi método de entrenamiento de IA en datos muy altos en proteínas de 1870-1970 es vital para limitar las derivas que surgen de datos bajos en proteínas de baja calidad que se encuentran en Internet. No solo el entrenamiento base, sino también el ajuste fino. Simplemente no puedes arreglarlo de otra manera.
Papel—/:
Derivas de valor: rastreo de la alineación de valores durante el entrenamiento posterior a LLM
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Populares
Ranking
Favoritas

