¡Soneto 4.5 ya está disponible! Es el modelo fronterizo más alineado hasta el momento; ¡mucho progreso en relación con el Soneto 4 y el Opus 4.1!
Notablemente, Sonnet 4.5 verbaliza la conciencia de evaluación mucho más que los modelos anteriores. ¿Eso invalida nuestros resultados? Hicimos una auditoría basada en las partes internas del modelo y la respuesta es "probablemente un poco, pero en su mayoría no".
1. Al revisar manualmente las transcripciones que el modelo califica de falsas, juzgamos que eran obviamente falsas, lo que no nos da ninguna razón para creer que el modelo es sobrehumano en el conocimiento de la evaluación.
2. Dirigimos con varias características de SAE relacionadas con el conocimiento de la evaluación. Esto puede reducir las puntuaciones de alineación del modelo, pero sobre todo haciéndolo más útil en lugar de hacerlo engañoso. A pesar de todos los vectores de dirección que probamos, el Sonnet 4.5 seguía estando más alineado que el Sonnet 4
Sin embargo, es muy importante vigilar la conciencia de la evaluación en el futuro.
Hemos obtenido un gran valor de la auditoría automatizada (gráfico de barras en la primera publicación), proporcionando un ciclo de retroalimentación rápido sobre las mitigaciones de alineación. Esta fue también la primera vez que auditamos un modelo de producción basado en los componentes internos del modelo. ¡Aplicaciones prácticas de la investigación interp!
Estoy muy orgulloso del equipo, ¡fue increíble ver cómo todo esto se unió!
66.15K