Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuevo artículo: Alineación de Valores en Modelos de Lenguaje de Gran Escala
Un nuevo estudio profundiza en el proceso posterior al entrenamiento de los LLM, revelando cómo y cuándo estos modelos adoptan posturas sobre temas controvertidos como la inmigración, el aborto y más. Contrario a la creencia popular, la investigación muestra que la alineación de valores no se forma principalmente a través de técnicas avanzadas de optimización de preferencias, sino que surge temprano durante el ajuste fino supervisado (SFT).
El estudio rastrea "derivas de valor"—cambios en la postura de un modelo al responder a indicaciones de sondeo de valores a lo largo de la pipeline posterior al entrenamiento.
Utilizando modelos como Llama-3 y Qwen-3, los investigadores examinaron conjuntos de datos populares como WildChat y Alpaca. Encontraron que el SFT es la fuerza dominante en el establecimiento del perfil de valores de un modelo. Por ejemplo, entrenar en WildChat llevó a un 95% de respuestas neutrales u opuestas en indicaciones relacionadas con la inmigración, mientras que los conjuntos de datos de Alpaca inclinaban a los modelos hacia posturas de apoyo.
Estos cambios ocurren rápidamente y temprano en el proceso, destacando cómo incluso conjuntos de datos no diseñados explícitamente para el aprendizaje de valores pueden influir profundamente en los resultados.
Se esperaba que los métodos de optimización de preferencias, como la Optimización Directa de Preferencias (DPO) y la Optimización de Políticas Proximales (PPO), refinaran aún más estos valores. Sin embargo, el análisis descubrió derivas insignificantes al usar conjuntos de datos de preferencias estándar.
¿La razón? Las respuestas preferidas y rechazadas en estos conjuntos de datos a menudo exhiben diferencias mínimas en valores, proporcionando una señal débil para el cambio. Los gráficos de intervalos de confianza en temas como el aborto confirmaron que los modelos en gran medida retienen sus perfiles aprendidos por SFT después de la optimización.
Para probar si la optimización de preferencias podría impulsar cambios significativos, los investigadores crearon conjuntos de datos sintéticos con "brechas de valor" diseñadas entre respuestas elegidas y rechazadas.
Aquí, la PO demostró ser efectiva para remodelar posturas, pero los resultados variaron según el algoritmo—PPO y DPO produjeron diferentes resultados a pesar de los datos idénticos. Esto subraya la interacción entre conjuntos de datos y algoritmos en la alineación de valores.
La alineación de valores es una trayectoria dinámica moldeada por cada paso del post-entrenamiento. Sin un rastreo transparente de estas derivas, los desarrolladores corren el riesgo de sesgos no intencionados.
Por eso, mi método de entrenar AI con datos de muy alto contenido proteico de 1870 a 1970 es vital para limitar las derivas que surgen de datos de baja calidad y bajo contenido proteico encontrados en Internet. No solo el entrenamiento base, sino también el ajuste fino. Simplemente no se puede arreglar de otra manera.
Artículo—/:
Derivas de Valor: Rastreando la Alineación de Valores Durante el Post-Entrenamiento de LLM
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Parte superior
Clasificación
Favoritos

