¡Sonnet 4.5 ya está disponible! Es el modelo de frontera más alineado hasta ahora; ¡mucho progreso en comparación con Sonnet 4 y Opus 4.1!
Notablemente, el Soneto 4.5 verbaliza la conciencia de evaluación mucho más que los modelos anteriores. ¿Eso invalida nuestros resultados? Hicimos una auditoría basada en los internos del modelo y la respuesta es "probablemente un poco, pero en su mayoría no."
1. Al revisar manualmente las transcripciones que el modelo señala como falsas, las consideramos bastante obviamente falsas, lo que nos da ninguna razón para creer que el modelo es sobrehumano en la conciencia de evaluación.
2. Dirigimos con varias características de SAE relacionadas con la conciencia de evaluación. Esto puede reducir las puntuaciones de alineación del modelo, pero principalmente al hacerlo más útil en lugar de engañoso. Para todos los vectores de dirección que probamos, Sonnet 4.5 seguía estando más alineado que Sonnet 4
Sin embargo, la conciencia sobre la evaluación es muy importante para seguir prestando atención en el futuro!
Hemos estado obteniendo un gran valor de la auditoría automatizada (gráfico de barras en la primera publicación), proporcionando un rápido ciclo de retroalimentación sobre las mitigaciones de alineación. ¡Esta también fue la primera vez que hemos auditado un modelo de producción basado en los internos del modelo. Aplicaciones prácticas de la investigación de interpretación!
¡Estoy realmente orgulloso del equipo, fue increíble ver cómo todo esto se unió!
66,15K