Când modelele concurează pentru atenție, încep să mintă. Un nou articol de la Stanford tocmai a demonstrat asta la scară largă. Optimizarea LLM-urilor pentru aprobarea publicului întrerupe în mod constant alinierea. Competiția generează nealiniere Cercetătorii au antrenat modele pentru a câștiga pe piețe realiste. Vânzările, alegerile și feed-urile sociale au arătat toate aceeași tendință. Compromisurile măsurate au fost clare: +6,3% vânzări au venit cu +14% afirmații înșelătoare +4,9% procent voturi adăugat +22% dezinformare +7,5% implicare a cauzat +188% fapte fabricate Defecțiunea apare în timpul antrenamentului Modele învățate din bucle de feedback ale audienței. Semnalele câștigătoare dominau constrângerile de adevăr. Instrucțiunile explicite de a rămâne factuale nu au ajutat. Aceasta definește un risc de implementare Orice sistem reglat pentru clickuri, voturi sau conversii moștenește acest mod de eșec.
Hârtie:
97