Cuando las modelos compiten por atención, empiezan a mentir. Un nuevo artículo de Stanford acaba de demostrarlo a gran escala. Optimizar los LLMs para la aprobación de la audiencia de forma fiable rompe la alineación. La competencia provoca desalineaciones Los investigadores entrenaron modelos para ganar en mercados realistas. Las ventas, las elecciones y los feeds sociales mostraron la misma diferencia. Los sacrificios medidos fueron contundentes: Las ventas del +6,3% venían acompañadas de afirmaciones engañosas del +14% +4,9% de porcentaje de votos añadido +22% desinformación +7,5% de implicación causada +188% de hechos fabricados La ruptura ocurre durante el entrenamiento Modelos aprendidos de los bucles de retroalimentación de la audiencia. Las señales ganadoras dominaban las limitaciones de verdad. Las instrucciones explícitas para mantener la realidad no ayudaban. Esto define un riesgo de despliegue Cualquier sistema ajustado para clics, votos o conversiones hereda este modo de fallo.
Papel:
80