Makalah baru: Penyelarasan Nilai dalam Model Bahasa Besar Sebuah studi baru menyelidiki proses pasca-pelatihan LLM, mengungkapkan bagaimana dan kapan model-model ini mengadopsi sikap pada isu-isu kontroversial seperti imigrasi, aborsi, dan banyak lagi. Bertentangan dengan kepercayaan populer, penelitian menunjukkan bahwa penyelarasan nilai tidak terutama dibentuk oleh teknik pengoptimalan preferensi tingkat lanjut melainkan muncul lebih awal selama penyempurnaan yang diawasi (SFT). Studi ini melacak "penyimpangan nilai"—pergeseran dalam sikap model saat menanggapi petunjuk penyelidikan nilai di seluruh pipeline pasca-pelatihan. Dengan menggunakan model seperti Llama-3 dan Qwen-3, para peneliti meneliti kumpulan data populer seperti WildChat dan Alpaca. Mereka menemukan bahwa SFT adalah kekuatan dominan dalam menetapkan profil nilai model. Misalnya, pelatihan di WildChat menghasilkan 95% respons netral atau bertentangan pada petunjuk terkait imigrasi, sementara kumpulan data Alpaca memiringkan model ke arah sikap yang mendukung. Pergeseran ini terjadi dengan cepat dan awal dalam proses, menyoroti bagaimana bahkan kumpulan data yang tidak dirancang secara eksplisit untuk pembelajaran nilai dapat sangat memengaruhi hasil. Metode optimasi preferensi, seperti Optimasi Preferensi Langsung (DPO) dan Optimasi Kebijakan Proksimal (PPO), diharapkan dapat menyempurnakan nilai-nilai ini lebih lanjut. Namun, analisis mengungkap penyimpangan yang dapat diabaikan saat menggunakan kumpulan data preferensi standar. Alasannya? Respons yang disukai dan ditolak dalam kumpulan data ini sering menunjukkan perbedaan nilai yang minimal, memberikan sinyal yang lemah untuk perubahan. Plot interval kepercayaan di seluruh topik seperti aborsi menegaskan bahwa model sebagian besar mempertahankan profil yang dipelajari SFT mereka pasca-pengoptimalan. Untuk menguji apakah pengoptimalan preferensi dapat mendorong pergeseran yang berarti, para peneliti membuat kumpulan data sintetis dengan "kesenjangan nilai" yang direkayasa antara respons yang dipilih dan ditolak. Di sini, PO terbukti efektif dalam membentuk kembali sikap, tetapi hasilnya bervariasi menurut algoritma—PPO dan DPO menghasilkan hasil yang berbeda meskipun data identik. Ini menggarisbawahi interaksi antara kumpulan data dan algoritme dalam penyelarasan nilai. Penyelarasan nilai adalah lintasan dinamis yang dibentuk oleh setiap langkah pasca-pelatihan. Tanpa pelacakan transparan dari penyimpangan ini, pengembang berisiko bias yang tidak diinginkan. Inilah sebabnya mengapa metode saya melatih AI dalam data protein yang sangat tinggi dari tahun 1870-1970 sangat penting untuk membatasi penyimpangan yang timbul dari data protein rendah berkualitas rendah yang ditemukan di Internet. Tidak hanya pelatihan dasar tetapi juga penyetelan halus. Anda tidak dapat memperbaikinya sebaliknya. Kertas—/: Penyimpangan Nilai: Melacak Penyelarasan Nilai Selama LLM Pasca-Pelatihan Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy