Soneta 4.5 sudah keluar! Ini adalah model perbatasan yang paling selaras; banyak kemajuan relatif terhadap Soneta 4 dan Opus 4.1!
Terlihat, Sonnet 4.5 mengungkapkan kesadaran eval lebih banyak daripada model sebelumnya. Apakah itu membatalkan hasil kami? Kami melakukan audit berdasarkan internal model dan jawabannya adalah "mungkin sedikit, tetapi sebagian besar tidak."
1. Saat meninjau transkrip secara manual yang disebut model sebagai palsu, kami menilainya cukup jelas palsu, tidak memberi kami alasan untuk percaya bahwa model tersebut adalah manusia super pada kesadaran eval.
2. Kami mengarahkan dengan berbagai fitur SAE yang terkait dengan kesadaran eval. Ini dapat mengurangi skor penyelarasan model, tetapi sebagian besar dengan membuatnya lebih membantu saja daripada membuatnya menipu. Untuk semua vektor kemudi yang kami coba, Sonnet 4.5 masih lebih sejajar daripada Sonnet 4
Namun demikian, kesadaran eval sangat penting untuk diperhatikan ke depannya!
Kami telah mendapatkan nilai besar dari audit otomatis (bagan batang di posting pertama), memberikan lingkaran umpan balik cepat tentang mitigasi penyelarasan. Ini juga pertama kalinya kami mengaudit model produksi berdasarkan internal model. Aplikasi praktis penelitian interp!
Saya sangat bangga dengan tim, sangat luar biasa melihat bagaimana semua ini bersatu!
66,16K