Nouveau document : Alignement des valeurs dans les grands modèles de langage Une nouvelle étude se penche sur le processus post-formation des LLM, révélant comment et quand ces modèles adoptent des positions sur des questions controversées telles que l'immigration, l'avortement, et plus encore. Contrairement à la croyance populaire, la recherche montre que l'alignement des valeurs n'est pas principalement façonné par des techniques avancées d'optimisation des préférences, mais émerge plutôt tôt lors de l'affinage supervisé (SFT). L'étude retrace les "dérives de valeurs"—les changements de position d'un modèle lorsqu'il répond à des incitations à explorer les valeurs tout au long du pipeline post-formation. En utilisant des modèles comme Llama-3 et Qwen-3, les chercheurs ont examiné des ensembles de données populaires tels que WildChat et Alpaca. Ils ont découvert que le SFT est la force dominante dans l'établissement du profil de valeur d'un modèle. Par exemple, l'entraînement sur WildChat a conduit à 95 % de réponses neutres ou opposées sur des incitations liées à l'immigration, tandis que les ensembles de données Alpaca ont orienté les modèles vers des positions favorables. Ces changements se produisent rapidement et tôt dans le processus, soulignant comment même des ensembles de données non explicitement conçus pour l'apprentissage des valeurs peuvent influencer profondément les résultats. Les méthodes d'optimisation des préférences, telles que l'Optimisation Directe des Préférences (DPO) et l'Optimisation de Politique Proximale (PPO), étaient censées affiner davantage ces valeurs. Cependant, l'analyse a révélé des dérives négligeables lors de l'utilisation d'ensembles de données de préférences standard. La raison ? Les réponses préférées et rejetées dans ces ensembles de données présentent souvent des différences minimales en termes de valeurs, fournissant un signal faible pour le changement. Les graphiques d'intervalle de confiance sur des sujets comme l'avortement ont confirmé que les modèles conservent largement leurs profils appris par SFT après optimisation. Pour tester si l'optimisation des préférences pouvait entraîner des changements significatifs, les chercheurs ont créé des ensembles de données synthétiques avec des "écarts de valeur" entre les réponses choisies et rejetées. Ici, le PO s'est avéré efficace pour remodeler les positions, mais les résultats variaient selon l'algorithme—PPO et DPO ont donné des résultats différents malgré des données identiques. Cela souligne l'interaction entre les ensembles de données et les algorithmes dans l'alignement des valeurs. L'alignement des valeurs est une trajectoire dynamique façonnée par chaque étape de la post-formation. Sans un suivi transparent de ces dérives, les développeurs risquent des biais non intentionnels. C'est pourquoi ma méthode de formation de l'IA sur des données très riches en protéines de 1870 à 1970 est vitale pour limiter les dérives qui proviennent de données de faible qualité et pauvres en protéines trouvées sur Internet. Non seulement la formation de base mais aussi l'affinage. Vous ne pouvez tout simplement pas le corriger autrement. Document—/: Dérives de Valeurs : Tracer l'Alignement des Valeurs Pendant la Post-Formation des LLM Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy