Коли моделі змагаються за увагу, вони починають брехати. Нова стаття Стенфорда щойно довела це у масштабі. Оптимізація LLM для схвалення аудиторії надійно порушує узгодженість. Конкуренція спричиняє розбіжності Дослідники навчали моделі перемагати на реалістичних ринках. Продажі, вибори та стрічки в соцмережах показали однаковий тренд. Вимірені компроміси були очевидними: +6,3% продажів припали на +14% оманливих заяв +4,9% частки голосів додано +22% дезінформації +7,5% залучення спричинено +188% сфабрикованих фактів Збій відбувається під час тренування Моделі навчалися на зворотному зв'язку з аудиторією. Переможні сигнали домінували в обмеженнях істинності. Чіткі інструкції залишатися фактичними не допомогли. Це визначає ризик розгортання Будь-яка система, налаштована на кліки, голосування чи конверсії, успадковує цей режим відмови.
Папір:
98